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很 系统 : 讲解 19 种 机 器 学 习 经 典 算法 , 依次 击破 重 难点 
很 图 示 : 书 中 包括 113 张 图 解说 明 , 方便 读者 理解 
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内 容 简 介 

本 书 通过 开发 实例 和 项 目 案例 ， 详 细 介绍 TensorFlow 开发 所 涉及 的 主要 内 容 。 书 中 的 每 个 知识 点 都 
通过 实例 进行 通俗 易 懂 的 讲解 ， 便 于 读者 轻松 掌握 有 关 TensorFlow 开发 的 内 容 和 技巧 ， 并 能 够 得 心 应 手 
地 使 用 TensorFlow 进行 开发 。 

本 书 内 容 共 分 为 11 章 ， 首 先 介绍 TensorFlow 的 基本 知识 ， 通 过 实例 逐步 深入 地 讲解 线性 回归 、 支 持 
向 量 机 、 神 经 网 络 算法 和 无 监督 学 习 等 常见 的 机 器 学 习 算法 模型 。 然 后 通过 TensorFlow 在 自然 语言 文本 
处 理 、 语 音 识别 、 图 形 识别 和 人 脸 识别 等 方面 的 成 功 应 用 讲解 TensorFlow 的 实际 开发 过 程 。 

本 书 适合 有 一 定 Python 基础 的 工程 师 阅读 ;对 于 有 一 定 基础 的 读者 ， 可 通过 本 书 快速 地 将 
TensorFlow 应 用 到 实际 开发 中 ， 对 于 高 等 院 校 的 学 生 和 培训 机 构 的 学 员 ， 本 书 也 是 入 门 和 实践 机 器 学 习 
的 优秀 教材 。 

本 书 对 应 的 电子 课件 和 实例 源 代码 可 以 到 http://www.tupwk.com.cn/downpage 下 载 ， 也 可 通过 扫描 前 
言 中 的 二 维 码 下 载 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ， 无 标签 者 不 得 销售 。 
版 权 所 有 ， 侵 权 必 究 。 侵 权 举 报 电话 : 010-62782989 13701121933 
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前 言 


2016 年 3 月 ， 谷 歌 公 司 的 AlphaGo 与 职业 九段 棋 手 李 世 石 进行 了 围棋 人 机 大 战 ， 最 终 
AlphaGo 以 4 比 1 的 总 比分 获胜 ， 这 引起 了 全 球 对 人 工 智能 的 热 议 。 同 时 ， 百 度 推出 的 无 人 
驾驶 ， 科 大 讯 飞 推出 的 “语音 识别 ”， 以 及 高 铁 进 站 的 人 脸 识别 的 广泛 应 用 ， 将 机 器 学 习 
转变 为 信息 科技 企业 的 研究 与 应 用 的 常见 内 容 ， 这 也 让 我 们 的 日 常生 活 更 为 便捷 。 

其 实 ， 机 器 学 习 已 经 走 过 符 号 主义 时 代 、 概 率 论 时 代 、 联 结 主义 时 代 ， 从 最 初 的 仅 
是 专家 研究 的 数学 理论 、 经 典 算法 ， 逐 步 发展 并 赔 变 为 可 以 为 大 部 分 项 目 直 接 使 用 的 平 
台 框 架 。 

2015 年 11 月 9 日 ， 谷 歌 在 GitHub 上 开源 了 TensorFlow 框 架 ， 该 框架 是 谷歌 的 机 器 学 习 
框架 ， 具 有 高 度 的 灵活 性 和 可 移植 性 。 在 TensorFlow 中 ， 将 各 种 经 典 算法 特别 是 神经 网 络 
模型 组 织 成 一 个 平台 ， 能 够 让 我 们 更 便捷 地 在 目标 领域 实践 机 器 学 习 算法 。 

TensorFlow 作 为 最 流行 的 机 器 学 习 框 架 之 一 ， 具 有 对 Python 语言 的 良好 支持 ， 这 有 效 
降低 了 进行 机 器 学 习 开 发 的 门槛 ， 让 更 多 的 工程 师 能 够 以 低 成 本 投身 到 人 工 智 能 的 浪潮 
中 。TensorFlow 框 架 能 够 支持 CPU、GPU 或 Google TPU 等 硬件 环境 ， 让 机 器 学 习 能 够 便捷 
地 移植 到 各 种 环境 中 。 

本 书 将 全 面 阐述 TensorFlow 机 器 学 习 框 架 的 原理 、 概 念 ， 详 细 讲 解 线性 回归 、 支 持 向 
量 机 、 神 经 网 络 算法 和 无 监督 学 习 等 常见 的 机 器 学 习 算法 模型 ， 并 通过 TensorFlow 在 自然 
语言 文本 处 理 、 语 音 识别 、 图 形 识别 和 人 脸 识 别 等 方面 的 成 功 应 用 来 讲解 TensorFlow 的 实 
际 开发 过 程 。 本 书 在 语言 上 力求 幽默 直 白 、 轻 松 活 涛 ， 避 免 云 山 雾 四 、 星 涩 难 懂 。 在 讲解 
形式 上 图 文 并 茂 ， 由 浅 入 深 ， 抽 丝 剥 昔 。 通 过 阅读 本 书 ， 读 者 可 以 少 走 很 多 弯路 ， 快 速 上 
手 TensorFlow 开 发 。 


本 书 特色 
1. 内 容 丰 富 、 全 面 


全 书 内 容 共 分 11 章 ， 从 机 器 学 习 概 述 到 TensorFlow 基 础 ， 再 到 实际 应 用 ， 内 容 几 乎 涵 
盖 TensorFlow 开 发 的 所 有 方面 。 
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2. 实例 丰富 、 案 例 典 型 、 实 用 性 强 

本 书 对 每 一 个 知识 点 都 以 实际 应 用 的 形式 进行 讲解 ， 帮 助 读者 理解 和 掌握 相关 的 开发 
技术 。 本 书 还 在 最 后 提供 了 TensorFlow 在 图 形 识别 、 文 本 识别 和 语音 识别 等 方面 成 功 应 用 
的 实例 ， 帮 助 读者 提高 实战 水 平 。 

3. 紧 跟 技术 趋势 

本 书 针对 目前 发 布 的 TensorFlow 的 常用 版 本 1.3 进 行 讲解 ， 并 涉及 1.6 版 本 的 变化 ， 握 
弃 了 以 前 版 本 中 不 再 使 用 的 功能 ， 以 适应 技术 的 发 展 趋势 。 

4. 举一反三 

本 书写 作 由 浅 入 深 、 从 易 到 难 ， 并 注意 知识 点 之 间 的 联系 ， 让 读者 掌握 一 个 知识 点 
后 ， 能 够 触 类 旁 通 、 举 一 反 三 ， 编 写 相应 的 代码 。 


本 书 内 容 及 体系 结构 

第 1 章 简 单 讲 述 机 器 学 习 的 发 展 、 分 类 以 及 经 典 算法 ， 介 绍 TensorFlow 的 发 展 和 优 
势 ， 并 详细 介绍 不 同 操作 系统 环境 下 TensorFlow 开 发 环境 的 准备 过 程 。 

第 2 章 讲解 TensorFlow 的 基础 知识 ， 包 括 基础 框架 、 源 代码 结构 、 基 础 概念 ， 并 通过 
运行 一 个 官方 示例 展示 了 可 视 化 的 调试 。 

第 3 章 讲解 TensorFlow 在 实际 进行 机 器 学 习 时 的 加 载 训练 数据 、 构 建 训练 模型 、 进 行 
数据 训练 、 评 估 和 预测 四 大 步骤 中 常用 的 方法 和 技巧 。 

第 4 章 详细 讲解 机 器 学 习 算 法 中 最 基础 的 线性 模型 ， 回归 模型 和 逻辑 回归 模型 。 

第 5 章 讲解 TensorFlow 中 支持 向 量 机 算法 的 基本 原理 及 核 函 数 ， 并 使 用 SVM 完 成 线性 
归 拟 合 、 逻 辑 回 归 分 类 以 及 非 线 性 数据 分 类 等 。 

第 6 章 对 神经 网 络 模型 进行 详细 介绍 ， 讲 解 神经 元 模型 、 神 经 网 络 层 等 基本 原理 ， 并 
讲解 全 连接 神经 网 络 、 卷 积 神经 网 络 和 循环 神经 网 络 等 主要 神经 网 络 的 原理 与 计算 过 程 ， 
并 在 TensorFlow 中 使 用 具体 案例 讲解 通用 神经 网 络 层 的 构建 、 卷 积 层 的 使 用 、 池 化 层 的 使 
用 、 循 环 神经 元 的 构建 以 及 损失 函数 的 选择 等 。 

第 7 章 主 要 介绍 无 监督 学 习 的 概念 和 经 典 算法 。 

第 8 章 讲解 TensorFlow 在 自然 语言 文本 处 理 中 的 应 用 ， 如 学 写 唐诗 、 影 评分 类 以 及 智 
能 聊天 机 器 人 等 。 

第 9 章 讲 解 TensorFlow 在 语音 处 理 方面 的 应 用 ， 如 听 懂 数字 、 听 懂 中 文 以 及 语音 合 
成 等 。 

第 10 章 讲解 TensorFlow 在 图 像 处 理 方面 的 应 用 ， 如 图 像 处 理 中 的 物体 识别 与 检测 、 图 
像 描述 。 

第 11 章 讲解 TensorFlow 在 人 脸 识别 方面 的 应 用 ， 介 绍 人 脸 识 别 的 原理 和 分 类 、 人 脸 比 
对 以 及 从 人 脸 判别 性 别 和 年 龄 。 
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口 初中 级 程序 员 。 
口 高 等 院 校 师 生 。 
口 培训 机 构 学 员 。 
口 希望 使 用 机 器 学 习 的 工程 师 。 


在 本 书 的 成 稿 过 程 中 ， 熊 诺 亚 对 书稿 的 完整 性 和 系统 性 提出 了 宝贵 的 意见 ， 在 此 ， 特 
别 表 示 感 谢 。 

本 书 对 应 的 电子 课件 和 实例 源 代码 可 以 到 http://www.tupwk.com.cn/downpage 下 载 ， 也 
可 通过 扫描 下 方 的 二 维 码 下 载 。 
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第 1 章 


机 器 学 习 概述 


本 章 介绍 人 工 智能 和 机 器 学 习 的 
发 展 ， 讲 解 机 器 学 习 的 主要 框架 ， 解 释 
TensorFlow 的 作用 、 特 性 以 及 开发 环境 的 
准备 过 程 。 


NEP AIEM 和 据 


毫 无 疑问 ， 目 前 人 工 智能 在 全 球 的 火热 与 AlphaGo( 阿 尔 法 狗 ) 的 战绩 密 不 可 分 。2016 
年 3 月 ， 谷 歌 公司 的 AlphaGo 与 职业 九段 棋 手 李 世 石 进行 围棋 人 机 大 战 ， 最 终 以 4 比 1 的 总 
比分 获胜 ， 这 引起 了 全 球 热 议 。2017 年 年 初 ，AlphaGo 化 身 为 Master， 在 棋 类 平台 上 横扫 
中 日 韩 围棋 高 手 ， 取 得 60 连 胜 ， 再 度 引 发 全 民 对 人 工 智 能 的 讨论 。 

虽然 人 工 智能 是 在 AlphaGo 战 胜 李 世 石 之 后 才 成 了 坊间 谈资 ， 引 起 所 有 人 的 关注 ， 但 
人 工 智能 的 提出 已 经 有 近 百 年 的 历史 。 

早 在 20 世 纪 50 年 代 ， 计 算 机 科学 家 就 提出 了 “人 工 智能 ”的 概念 ， 想 制造 出 和 人 类 外 
形 相同 、 能 够 与 人 类 正常 对 话 、 能 够 自我 学 习 的 机 器 。 阿 兰 。 图 灵 还 提出 了 著名 的 “图 灵 
测试 ”来 判定 计算 机 是 否 智 能 : 如 果 一 台 机 器 能 够 与 人 类 展开 对 话 而 不 被 辨别 出 其 机 器 身 
份 ， 那 么 称 这 人 台 机 器 具有 智能 。 从 此 以 后 ， 人 工 智 能 就 一 直 是 人 们 在 科研 、 工 业 以 及 电影 
中 努力 实现 的 目标 ， 也 确实 在 不 断 地 发 展 。 

现在 ， 人 工 智能 已 经 发 展 为 一 门 广泛 的 交叉 和 前 沿 科 学 ， 涉 及 计算 机 科学 、 心 理学 、 
哲学 和 语言 学 等 学 科 ， 也 被 广泛 地 应 用 到 语音 识别 、 图 像 识别 、 自 然 语言 处 理 等 领域 。 

在 国际 上 上， 谷歌、 微软 、IBM 等 都 有 自己 的 人 工 智 能 项 目 ， 如 谷歌 的 DeepMind、IBM 
的 Watson、 微 软 的 Torque 等 项 目 。 
国内 的 各 大 公司 也 积极 投身 于 人 工 智能 领域 。 百 度 成 立 了 Apollo 基 金 和 DuerOS 基 金 ， 
推动 中 国 AI 的 发 展 ， 腾 讯 创建 了 人 工 智 能 实验 室 AI Lab， 专 注 于 人 工 智能 的 基础 研究 ， 阿 
里 巴巴 成 立 的 人 工 智 能 实验 室 ， 主 要 面向 消费 级 的 AI 产品 研发 ， 搜 狗 向 清华 大 学 捐赠 1.8 
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亿 元 ， 一 起 成 立 了 “天 工 智能 计算 研究 院 ” 等 。 目 前 这 些 公司 也 陆续 推出 了 各 自 的 产 
腾讯 开发 的 机 器 人 “Dreamwriter”， 百 度 的 无 人 驾驶 ， 搜 狗 、 科 大 讯 飞 等 公司 的 “ 语 
别 ”， 了 旷 视 科技 的 “Face++” 人 脸 识别 等 。 


ss f 
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为 了 让 计算 机 能 够 实现 类 似 人 类 的 智能 ， 在 计算 机 的 实际 实现 上 出 现 了 两 种 完全 不 同 
的 方向 : 一 种 是 采用 传统 的 编程 技术 ， 使 系统 呈现 智能 的 效果 另 一 种 是 采用 计算 机 训练 
学 习 的 方式 来 实现 智能 的 效果 。 一 般 来 说 ， 现 在 我 们 使 用 的 机 器 学 习 都 是 通过 算法 来 解析 
数据 、 学 习 数 据 的 ， 然 后 据 此 对 真实 世界 中 的 事件 做 出 决策 和 预测 。 

“机 器 学 习 ” 这 一 术语 由 IBM 的 科学 家 亚 瑟 。 塞 织 尔 提出 。 他 在 1952 年 开发 了 一 个 跳 
棋 程序 ， 该 程序 能 够 观察 当前 位 置 ， 并 学 习 一 个 隐 含 的 模型 ， 从 而 为 后 续 动 作 提供 更 好 的 
指导 ， 并 且 随 着 该 程序 运行 时 间 的 增加 ， 可 以 实现 越 来 越 可 靠 的 后 续 指 导 。 他 针对 这 种 计 
算 机 的 实现 能 力 提出 了 “机 器 学 习 ”。 

在 机 器 学 习 领 域 ， 计 算 机 科学 家 不 断 探索 ， 基 于 不 同 的 理论 创建 出 不 同 的 机 器 学 习 
模型 。 从 发 展 历程 来 说 ， 大 致 经 历 了 三 个 阶段 ; 符号 主义 时 代 、 概 率 论 时 代 以 及 联结 主 
义 时 代 。 

口 符号 主义 时 代 (1980 年 左右 )。 以 知识 工程 为 主要 理论 依据 ， 使 用 服务 器 或 大 型 机 

进行 架构 运算 ， 通 过 符号 、 规 则 和 逻辑 来 表征 知识 和 进行 逻辑 推理 ， 常 用 的 算法 
有 规则 和 决策 树 ， 实 用 性 有 限 。 

O 概率 论 时 代 (1990 一 2000 年 )。 以 概率 论 为 主要 理论 依据 ， 使 用 小 型 服务 器 集群 进 
行 架构 运算 ， 通 过 获取 发 生 的 可 能 性 来 进行 概率 推理 ， 常 用 的 算法 有 朴素 贝 叶 斯 
或 马尔 可 夫 算 法 ， 具 有 可 扩展 的 比较 或 对 比 功能 ， 对 许多 任务 都 表现 得 足够 好 。 

C) 联结 主义 时 代 (2010 年 左右 )。 以 神经 科学 和 概率 为 主要 理论 依据 ， 使 用 云 计算 架 
构 ， 通 过 使 用 概率 矩阵 和 加 权 神经 元 来 动态 地 识别 和 归纳 模式 ， 常 用 的 算法 有 神 
经 网 络 ， 能 够 让 计算 机 “看 懂 图 像 ”“ 听 懂 语 言 ”， 甚 至 能 够 分 析 人 类 在 语言 
后 表达 的 情绪 。 

不 同 算法 在 不 同 应 用 场景 下 有 着 不 同 的 表现 ， 每 一 个 阶段 仅仅 取得 了 某 些 领域 的 突破 
性 进展 ， 并 没有 完全 颠覆 前 一 阶段 的 成 果 。 相 信 在 后 续 的 发 展 中 ， 将 会 把 符号 规则 理论 、 
概率 论 、 神 经 科学 和 进化 论 等 理论 相 融 合 ， 并 演变 出 不 同 的 算法 ， 通 过 多 种 学 习 方 式 获 得 
知识 或 经 验 ， 推 动机 器 学 习 继续 发 展 。 
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1.2.2 机 器 学 习 的 分 类 


机 器 学 习 是 计算 机 进行 数据 处 理 ， 找 到 数据 间 映 射 关 系 的 过 程 。 在 进行 数据 处 理 分 析 
时 ， 对 于 输入 的 数据 ， 有 的 是 经 过 人 工 来 定义 数据 标签 的 ， 方 法 是 先 找到 数据 的 特征 与 其 
标签 的 映射 关系 ， 再 凭借 这 种 映射 关系 ， 对 未 进行 标签 定义 的 数据 进行 标签 定义 。 输 入 的 
初始 数据 也 有 一 些 是 没有 经 过 人 工 定义 数据 标签 的 ， 只 是 单纯 依靠 数据 处 理 分 析 来 找到 数 
据 之 间 的 标签 映射 关系 。 

可 以 按照 输入 的 数据 本 身 是 否 已 被 标定 特定 的 标签 将 机 器 学 习 区 分 为 有 监督 学 习 、 无 
监督 学 习 以 及 半 监 督学 习 三 类 。 

1. 有 监督 学 习 

有 监督 学 习 (Supervised Learning) 就 是 样本 数据 集中 的 数据 ， 包 括 样 本 数据 以 及 样本 数 
据 的 标签 。 
进行 学 习 的 目的 就 是 找到 样本 数据 与 样本 数据 标签 的 映射 关系 。 通 过 对 样本 数据 的 不 
断 学 习 、 不 断 修正 学 习 中 的 偏差 ， 使 得 找到 的 映射 关系 更 准确 ， 从 而 不 断 提高 学 习 的 准确 
率 。 当 学 习 完 成 后 ， 再 给 予 新 的 未 知 数据 ， 能 够 依据 学 习 的 映射 关系 计算 出 相对 正确 的 结 
果 。 由 于 样本 数据 中 既 包 括 数据 也 包括 标签 ， 因 此 训练 的 效果 往往 都 不 错 。 

有 监督 学 习 主要 用 于 解决 两 大 类 问题 : 回归 问题 (Regression Problem) 和 分 类 问题 
(Classification Problem). 

归 问 题 就 是 通过 对 现 有 数据 的 分 析 ， 找 到 映射 关系 ， 对 以 后 的 事情 进行 预测 的 情 
况 。 比 如 ， 我 们 想 预 测 未 来 房价 会 是 多 少 。 我 们 获取 以 前 的 房价 与 时 间 的 数据 ， 可 以 将 
这 些 数 据 看 作 多 维度 坐标 系 中 的 坐标 点 ， 通 过 回归 分 析 ， 建 立 数据 的 关系 模型 ， 求 出 一 
个 最 符合 这 些 已 知 数据 集 的 解析 函数 ， 然 后 通过 这 个 解析 函数 来 预 估 未 来 的 房价 。 对 于 
解决 回归 问题 ， 主 要 有 线性 回归 (Linear Regression)、 决 策 树 (Decision Tree)、 随 机 森林 
(Random Forest)、 梯 度 提 升 决 策 树 (Gradient Boosting Tree)、 神 经 网 络 (Neural Network) 
等 算法 可 供 使 用 。 

分 类 问题 就 是 通过 对 现 有 数据 的 分 析 ， 找 到 数据 间 的 联系 与 区 别 ， 对 数据 进行 分 类 。 
比如 ， 判 断 某 地 房价 的 “ 涨 ” 与 “ 跌 ” 的 问题 。 我 们 获取 以 前 的 房价 、 地 区 、 户 型 和 时 
间 等 数据 ， 通 过 这 些 数据 建立 数据 与 “ 涨 ” 和 “ 跌 ” 的 关系 模型 。 当 输入 新 的 值 时 ， 能 
够 根据 关系 模型 判断 房价 是 “ 涨 ”还 是 “ 跌 ” 了 。 对 于 解决 分 类 问题 ， 主 要 有 逻辑 回归 
(Logistics Regression)、 决 策 树 (Decision Tree)、 随 机 森林 (Random Forest)、 梯 度 提升 决策 
树 (Gradient Boosting Tree)、 核 函数 支持 向 量 机 (Kernel SVM)、 朴 素 贝 叶 斯 (Naive Bayes), 
SVM 线性 分 类 (Linear SVM)、 神 经 网 络 (Neural Network) 等 算法 可 供 使 用 。 

2. 无 监督 学 习 

无 监督 学 习 (Unsupervised Learning) 就 是 在 样本 数据 中 只 有 数据 ， 而 没有 对 数据 进行 标 
记 。 无 监督 学 习 的 目的 就 是 让 计算 机 对 这 些 原始 数据 进行 分 析 ， 让 计算 机 自己 去 学 习 、 找 
到 数据 之 间 的 某 种 关系 。 
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无 监督 学 习 与 有 监督 学 习 的 明显 区 别 就 是 在 样本 数据 中 只 有 数据 ， 没 有 标记 。 由 于 没 
有 对 数据 进行 标记 ， 因 此 学 习 的 结果 也 难以 验证 是 否 正确 ， 也 难以 对 学 习 的 模型 进行 正确 
率 的 判断 。 对 于 无 监督 学 习 的 这 种 特点 ， 学 习 的 思路 和 目的 主要 有 两 类 : 聚 类 (Clustering) 
和 强化 学 习 (Reinforcement Learning, RL). 

聚 类 就 是 对 于 未 标记 的 数据 ， 在 训练 时 根据 数据 本 身 的 数据 特征 进行 训练 ， 呈 现 出 数 
据 集聚 的 形式 ， 每 一 个 集聚 群 中 的 数据 ， 彼 此 都 有 相似 的 性 质 ， 从 而 形成 分 组 。 比 如 我 们 
使 用 的 今日 头条 ， 它 每 天 会 收集 大 量 的 新 闻 ， 然 后 把 它们 全 部 聚 类 ， 就 会 自动 分 成 娱乐 、 
科技 和 政治 等 几 十 个 不 同 的 组 ， 每 个 组 内 的 新 闻 都 具有 相似 的 内 容 结构 。 
强化 学 习 是 游戏 中 常用 的 一 种 学 习 方 式 ， 是 指 在 学 习 中 增加 一 种 延迟 奖赏 机 制 。 通 过 
学 习 过 程 中 的 延迟 奖赏 激励 函数 ， 可 以 让 机 器 学 习 到 当前 状态 下 ， 执 行 哪 一 种 操作 使 得 最 
终 的 奖赏 最 多 ， 从 而 让 机 器 学 习 获 得 一 种 类 似 于 决策 的 能 力 ， 比 如 AlphaGo 也 使 用 了 这 种 
强化 学 习 方 式 。 
用 于 无 监督 学 习 的 经 典 算 法 有 聚 类 算法 、EM 算 法 和 深度 学 习 算法 等 。 

3. 半 监 督学 习 

半 监 督学 习 (Semi-Supervised Learning) 是 介 于 有 监督 学 习 和 无 监督 学 习 之 间 的 学 习 。 一 般 
来 说 ， 在 半 监 督学 习 输入 的 数据 样本 中 ， 存 在 一 部 分 进行 了 标记 的 数据 ， 但 是 大 量 存在 的 是 
没有 进行 标记 的 数据 。 

为 了 利用 未 标记 的 样本 ， 必 须 先 对 未 标记 样本 揭示 的 数据 分 布 信息 与 类 别 进 行 假设 ， 
最 常见 的 两 种 假设 方式 是 聚 类 假设 (Cluster Assumption) 和 流 形 假设 (Maniford Assumption)。 

对 于 聚 类 假设 ， 是 假设 数据 存在 簇 结构 ， 同 一 个 簇 的 样本 属于 同一 个 类 别 。 对 标记 数 
据 和 未 标记 数据 进行 聚 类 ， 如 果 待 预测 样本 与 标记 样本 聚 在 一 起 ， 则 认为 待 预测 样本 属于 
标记 样本 类 。 

对 于 流行 假设 ， 是 假设 数据 分 布 在 一 种 流行 结构 上 ， 和 邻近 的 样本 拥有 相似 的 输出 值 。 
邻近 的 程度 常用 相似 程度 进行 刻画 。 流 行 假 设 对 输出 值 没 有 限制 ， 相 对 于 聚 类 假设 而 言 ， 
它 的 适用 范围 更 广 ， 可 用 于 更 多 类 型 的 学 习 任务 。 


1.2.3 机 器 学 习 的 经 典 算法 


随 着 机 器 学 习 的 不 断 发 展 ， 出 现 了 许多 经 典 算法 ， 这 些 算 法 为 我 们 解决 实际 问题 提供 
了 强大 的 支持 。 

1. 线性 模型 

线性 模型 就 是 使 用 简单 的 公式 通过 一 组 数据 点 来 查找 最 优 拟 合 线 。 然 后 ， 通 过 已 知 
的 变量 方程 ， 求 出 需要 预测 的 变量 。 对 于 不 同形 式 的 线性 模型 算法 ， 主 要 包括 线性 回归 
(Linear Regression) 和 多 辑 回归 (Logistic Regression). 

线性 回归 从 二 维 几何 平面 的 角度 可 以 理解 为 ， 在 平面 中 存在 已 知 的 数据 点 ， 通 过 学 习 
处 理 ， 找 到 一 条 线 能 够 建立 这 些 点 之 间 的 关系 的 模型 。 线 性 回归 用 于 解决 回归 问题 ， 是 最 
简单 的 线性 模型 ， 易 于 理解 。 同 时 ， 由 于 模型 太 简 单 而 不 能 反映 变量 之 间 复杂 的 关系 ， 因 
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此 容易 出 现 过 拟 合 的 情形 。 

逻辑 回归 是 给 定 样本 属于 类 别 “1” 和 类 别 “-1” 的 概率 ， 用 于 解决 分 类 问题 ， 与 线 
性 回归 的 特点 一 样 ， 易 于 理解 但 无 法 反映 变量 间 的 复杂 关系 ， 易 出 现 过 拟 合 的 情形 。 
2. 树 型 模型 
树 型 模型 用 于 探索 数据 集中 数据 的 特性 ， 并 且 能 够 对 数据 按照 数据 特征 进行 分 类 处 
理 ， 可 以 用 于 解决 分 类 和 回归 问题 。 树 型 模型 高 度 精确 、 稳 定 且 易于 解释 ， 可 以 映射 非 线 
性 关系 以 求解 问题 ， 主 要 包括 决策 树 (Decision Tree)、 随 机 森林 (Random Forest) 和 梯度 提升 
决策 树 (Gradient Boosting Tree)。 

决策 树 是 使 用 分 支 方法 来 显示 决策 的 每 个 可 能 结果 的 图 ， 它 对 所 有 的 可 能 性 进行 梳 
理 。 这 种 算法 易于 理解 和 实现 ， 但 是 由 于 决策 树 有 时 太 简 单 ， 无 法 处 理 复杂 的 数据 ， 因 此 
一 般 不 会 单独 使 用 。 

随机 森林 是 许多 决策 树 的 平均 ， 每 个 决策 树 都 用 数据 的 随机 样本 训练 。 森 林 中 每 个 
独立 的 树 都 比 完 整 的 决策 树 弱 ， 但 是 通过 将 它们 结合 在 一 起 ， 可 以 通过 多 样 性 获得 更 高 
的 整体 表现 。 该 算法 非常 容易 构建 并 且 表 现 往往 良好 ， 但 是 相 比 于 其 他 算法 输出 预测 可 
能 较 慢 。 

梯度 提升 决策 树 和 随机 森林 类 似 ， 都 是 由 弱 决 策 树 构成 的 ， 但 最 大 的 区 别 在 于 : 梯 
度 提 升 决策 树 中 ， 树 是 一 个 接 一 个 被 相继 训练 的 ， 每 个 随后 的 树 主要 用 被 先前 树 错 误 识 别 
的 数据 进行 训练 。 这 使 得 梯度 提升 更 少 地 集中 于 容易 预测 的 情况 并 更 多 地 集中 于 困难 的 情 
况 。 该 算法 训练 速度 快 且 表现 非常 好 ， 但 是 训练 数据 即使 出 现 小 的 变化 ， 也 会 在 模型 中 产 
生 彻底 的 改变 ， 因 此 可 能 会 产生 不 可 解释 的 结果 。 

3. 支持 向 量 机 

支持 向 量 机 (SVM) 基 于 统计 学 理论 而 提出 ， 是 机 器 学 习 中 一 种 大 放 光 彩 的 经 典 算法 。 

支持 向 量 机 算法 通过 给 予 严格 的 优化 条 件 获得 分 类 界线 ， 并 且 通 过 与 高 斯 核 等 核 函 
数 的 结合 ， 通 过 非 线性 映射 ， 把 样本 空间 映射 到 高 维 乃 至 无 穷 维 的 特征 空间 ， 使 得 原来 样 
本 空间 中 非 线性 可 分 的 问题 转变 为 特征 空间 中 线性 可 分 的 问题 。 它 几乎 不 增加 计算 的 复杂 
性 ， 而 且 在 某 种 程度 上 避免 了 “ 维 数 灾 难 ”， 训 练 较为 简单 ， 是 一 种 广泛 应 用 的 机 器 学 习 
方式 。 

4. 人 工 + 神 经 网 络 

人 工 + 神经 网 络 算法 起 步 较 早 ， 但 是 发 展 坎坷。 

在 20 世 纪 20 年 代 就 已 经 提出 了 人 工 神 经 网 络 模型 以 及 关键 的 反 向 传播 算法 。 但 是 由 于 
受 当时 计算 机 运算 能 力 的 限制 ， 难 以 在 多 层 神 经 网 络 中 进行 训练 ， 通 常 都 是 只 有 一 层 隐 层 
节点 的 浅 层 模型 。 这 种 模型 的 神经 网 络 算法 比较 容易 出 现 过 训练 现象 ， 而 且 训 练 速度 比较 
慢 。 在 层次 比较 少 的 情况 下 ， 训 练 效果 往往 不 如 其 他 算法 。 

在 2006 年 ，Hinton 提 出 了 深度 学 习 算 法 ， 增 加 了 神经 网 络 的 层 数 和 一 些 处 理 技巧 。 在 
丰富 的 训练 数据 以 及 强劲 的 计算 机 运行 能 力 的 帮助 下 ， 神 经 网 络 的 能 力 大 大 提高 。 

目前 ， 深 度 学 习 模 型 在 目标 识别 、 语 音 识 别 、 自 然 语 言 处 理 等 领域 取得 了 突飞猛进 的 
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成 果 ， 是 目前 最 热门 的 机 器 学 习 方 法 ， 也 是 本 书 讲解 的 主要 内 容 。 但 是 也 有 使 用 前 提 ， 一 
是 深度 学 习 模型 需要 大 量 的 训练 数据 ， 才 能 展现 出 神奇 的 效果 ; 二 是 深度 学 习 对 计算 能 力 
要 求 更 高 。 在 有 些 领 域 采 用 传统 的 、 简 单 的 机 器 学 习 方法 可 以 很 好 地 解决 问题 ， 就 没 必 要 
非得 使 用 复杂 的 深度 学 习 方 法 。 


[1.2.4| 机 器 学 习 入 门 


对 某 个 领域 进行 学 习 的 第 一 步 就 是 要 尽快 了 解 全 貌 以 搭建 出 整体 的 知识 体系 ， 然 后 在 
实践 中 不 断 提升 对 该 领域 的 认识 。 对 于 机 器 学 习 领 域 ， 整 体 的 知识 体系 如 下 。 

1. 数学 知识 

机 器 学 习 的 目标 是 通过 现 有 数据 构建 和 训练 模型 ， 用 于 数据 的 分 析 与 预测 。 计 算 机 能 
够 做 的 只 有 计算 ， 而 如 何 将 训练 过 程 抽象 为 数学 函数 就 是 需要 我 们 掌握 的 能 力 。 在 现 有 的 
经 典 算法 中 涉及 概率 统计 、 矩 阵 运算 、 微 积分 导数 等 数学 知识 。 对 于 这 些 知 识 学 过 最 好 ， 
没有 学 过 也 没关系 ， 本 书 会 讲解 在 实际 应 用 中 所 需要 的 原理 和 结论 ， 其 中 会 涉及 必要 的 公 
式 推 导 证 明 。 

2. 编程 语言 

Python 是 一 种 面向 对 象 的 解释 型 高 级 编程 语言 ， 众 多 的 机 器 学 习 框 架 都 支持 Python， 
因此 它 成 了 机 器 学 习 的 首选 语言 。 本 书 也 将 使 用 Python 作为 实现 语言 进行 讲解 ， 希 望 读 者 
已 经 掌握 了 Python 语言 。 

3. 经 典 机 器 学 习 理 论 和 基本 算法 

经 典 的 机 器 学 习 算 法 包括 线性 回归 、 逻 辑 回 归 、SVM 支 持 向 量 机 、 神 经 网 络 算法 
等 ， 以 及 通过 各 种 基本 算法 处 理 数据 时 存在 的 正则 化 需求 、 过 拟 合 现象 等 基本 的 算法 特性 
和 适用 环境 。 本 书 将 对 这 些 基 本 算法 进行 详解 并 通过 实例 来 说 明 这 些 算法 的 使 用 。 

4. 动手 实践 机 器 学 习 

掌握 了 机 器 学 习 的 基础 知识 后 ， 就 可 以 动手 实践 机 器 学 习 模 型 。 首 先 需 要 选择 一 个 
开源 的 机 器 学 习 框架 。 在 选择 机 器 学 习 框架 方面 的 主要 考虑 因素 就 是 哪个 框架 的 使 用 范围 
广 、 使 用 人 数 多 。 目 前 ，TensorFlow 由 于 由 谷歌 进行 开源 推广 且 有 着 大 量 的 开发 者 群体 ， 
更 新 和 发 布 速度 非常 快 ， 是 非常 不 错 的 选择 。 


| VES TensorFlow 简 介 ES 


TensorFlow 是 谷歌 公司 推出 的 机 器 学 习 开源 神器 ， 是 谷歌 基于 DistBelief 进 行 研发 的 
第 二 代 人 工 智能 学 习 系 统 。DistBelief 是 谷歌 内 部 开发 和 使 用 的 机 器 学 习 框 架 ， 但 是 它 严 
重 依赖 于 Google 内 部 硬件 ， 仅 适用 于 开发 神经 网 络 算法 等 ， 因 此 难以 广泛 使 用 。 谷 歌 在 
DistBelief 的 基础 上 ， 提 高 了 运算 效率 、 框 架 的 灵活 性 和 可 移植 性 ， 形 成 了 TensorFlow 框 
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架 。 目 前 ，TensorFlow 已 被 广泛 用 于 文本 处 理 、 语 音 识别 和 图 像 识 别 等 多 项 机 器 学 习 和 深 
度 学 习 领 域 。 


1.3.1 主流 框架 的 对 比 


在 机 器 学 习 的 开源 框架 中 ，Google( 谷 歌 )、Microsoft( 微 软 )、Facebook( 脸 书 ) 和 
Amazon( 亚 马 进 ) 等 巨头 都 有 着 自己 的 机 器 学 习 框架 并 进行 了 一 定 程度 的 开源 。 此 外 ， 还 有 
伯克利 大 学 的 贾 扬 清 主导 开发 的 Caffe、 蒙 特 利 尔 大 学 Lisa Lab 团 队 开 发 的 Theano 以 及 其 他 
个 人 或 商业 组 织 贡 献 的 框架 。 可 以 说 ， 各 种 开源 的 深度 学 习 框 架 层出不穷 。 

1. 基本 情况 

TensorFlow 是 Google 的 可 移植 机 器 学 习 和 神经 网 络 库 ， 可 扩展 性 强 。TensorFlow 对 
Python 有 着 良好 的 编程 语言 支持 ， 支 持 CPU、GPU 和 Google TPU 等 硬件 ， 并 且 已 经 拥有 各 
种 各 样 的 模型 和 算法 ， 在 深度 学 习 上 有 非常 出 色 的 表现 。 另 外 ，TensorFlow 由 谷歌 进行 主 
导 ， 在 文档 和 实例 方面 也 有 着 良好 的 支持 。 

MXNet 是 亚马逊 的 机 器 学 习 框 架 ， 具 有 较 强 的 可 移植 性 和 可 扩展 性 ， 对 Python、R、 
Scala、Julia 和 C++ 等 编程 语言 有 着 不 同 程度 的 支持 。 

Deeplearning4j(DL4J) 是 一 个 专注 于 深度 神经 网 络 的 Java 库 ， 可 以 与 Hadoop 和 其 他 基于 
Java 的 分 布 式 框架 集成 。 

Microsoft Cognitive Toolkit(CNTK) 是 微软 的 开源 深度 学 习 框架 ， 支 持 Python 编程 语 
言 ， 拥 有 各 种 各 样 的 神经 网 络 模型 ， 并 且 支 持 强化 学 习 、 生 成 对 抗 网 络 等 ， 是 一 个 功能 强 
大 的 工具 。 但 是 由 于 交流 的 社区 小 ， 在 文档 和 实例 方面 的 学 习 资 料 很 少 。 

Caffe 深 度 学 习 项 目 最 初 是 一 个 用 于 解决 图 像 分 类 问题 的 框架 ， 后 来 逐步 成 长 为 一 个 
强大 的 机 器 学 习 框架 。 但 是 由 于 其 创始 人 现 已 离开 项 目 ， 有 一 段 时 间 已 不 再 进行 更 新 。 该 
项 目的 下 一 步 进展 不 明确 ， 建 议 不 再 使 用 。 

Torch 是 Facebook 主 推 的 机 器 学 习 框架 ， 基 于 Lua 语 言 进行 开发 ， 广 泛 支持 各 种 机 器 学 
习 模 型 和 算法 。 但 是 由 于 Lua 语 言 是 机 器 学 习 中 相对 冷门 的 语言 ， 因 此 增加 了 学 习 成 本 。 

Theano 由 蒙特 利 尔 大 学 机 器 学 习 研 究 所 (MILA) 创 建 。Theano 支 持 Python 语 言 ， 并 且 能 
够 支持 其 他 的 深度 学 习 框架 。 但 因为 它 由 研究 机 构 开 发 ， 在 API 方 面 并 不 完善 ， 若 要 写 : 
效率 高 的 Theano 框 架 ， 需 要 对 隐藏 在 框架 背后 的 算法 也 相当 熟悉 ， 所 以 它 只 在 研究 中 极为 
流行 ， 但 在 项 目 开发 方面 难度 相对 较 大 。 

Keras 由 Francis Chollet 编 写 和 维护 ， 基 于 Python 进行 编写 ， 能 够 运行 在 Theano 或 
TensorFlow 上 ， 可 以 将 它 看 成 对 Theano 或 TensorFlow 的 再 一 次 封装 。Keras 由 于 水 平 高 ， 
对 用 户 友 好 ， 因 此 能 够 更 加 便捷 地 编写 卷 积 神经 网 络 、 递 归 神 经 网 络 等 机 器 学 习 模型 。 
目前 ，TensorFlow 将 Keras 添 加 为 TensorFlow 核 心中 的 高 级 框架 ， 成 为 TensorFlow 的 默 
认 API。 

对 于 这 些 主要 的 机 器 学 习 框 架 ， 基 本 情况 的 对 比如 表 1.1 所 示 。 


Python+TensorFlow 机 器 学 习 实战 


表 1.1 各 主流 框架 基本 情况 的 对 比 


Amazon 


开发 或 支持 


GitHub 地 址 
https://github.com/tensorflow/tensorflow 
https://github.com/apache/incubator-mxnet 


Eclipse 


Microsoft 


https://github.com/deeplearning4j/deeplearning4j 
https://github.com/Microsoft/CNTK 


贾 扬 清 
Facebook 


Torch 


https://github.com/BVLC/caffe 
https://github.com/torch/torch7 


Theano 


Keras 


的 支持 库 


2. 运行 性 能 


蒙特 利 尔 大 学 
个 人 ， 作 为 TensorFlow 


https://github.com/Theano/Theano 


https://github.com/keras-team/keras 


在 性 能 方面 ， 对 主流 框架 在 AlexNet 上 单 GPU 的 情况 进行 了 性 能 评测 '， 结 果 如 表 1.2 


所 示 。 


Library( 库 ) 


表 1.2 ”各 主流 框架 的 性 能 评测 
Class( 类 ) | 总 时 间 (ms) | 前 馈 时 间 (ms) | 反馈 时 间 (ms) 


CuDNN[R4]-fp16 (Torch) | cudnn.SpatialConvolution 46 
Nervana-neon-fp16 ConvLayer 52 
CuDNN[R4]-fp32 (Torch) | cudnn.SpatialConvolution 53 
TensorFlow conv2d 55 
Nervana-neon-fp32 ConvLayer 58 
fbfft (Torch) fbnn.SpatialConvolution [104 | 72 
Chainer Convolution2D 136 
cudaconvnet2 ConvLayer 177 135 
CuDNN[R2] cudnn.SpatialConvolution 161 
Caffe (native) ConvolutionLayer 203 
Torch-7 (native) SpatialConvolutionMM 342 132 210 
CL-nn (Torch) SpatialConvolutionMM 963 388 574 
Caffe-CLGreenTea ConvolutionLayer 1442 210 1232 


可 以 看 出 ，TensorFlow 的 性 能 已 经 处 于 领先 水 平 。 


3. 受 欢迎 程度 
主要 的 机 器 学 习 


框架 都 在 GitHub 上 进行 了 开源 。 截 至 2018 年 4 月 ， 流 行 的 机 器 学 习 框 


架 在 GitHub 上 的 情况 如 图 1.1 所 示 。 


1 参考 https://github.com/soumith/convnet-benchmarks。 
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图 1.1 主流 机 器 学 习 框 架 受 欢迎 程度 对 比 

从 中 可 以 看 到 ，TensorFlow 在 Watch 数量 、Star 数 量 、Fork 数 量 等 方面 都 完胜 其 他 
框架 。 

综合 来 说 ，TensorFlow 本 身 在 编程 语言 上 对 主流 的 Python 进行 支持 ， 并 且 能 够 支持 各 
种 硬件 平台 ， 能 够 采用 集中 部 署 和 分 布 式 部 署 方式 ， 能 够 部 署 在 移动 端 、 云 端 、 服 务 器 端 
等 不 同 的 应 用 环境 中 。 最 关键 的 是 它 由 Google 主 导 ，Google 强 大 的 人 工 智 能 研发 水 平 ， 让 
大 家 对 Google 的 深度 学 习 框 架 充 满 信心 。 而 且 Google 丰 富 的 项 目 经 验 ， 使 得 TensorFlow 能 
够 进行 快速 的 迭代 更 新 ，Google 的 工程 师 和 其 他 广大 的 开发 者 也 能 组 织 成 活跃 的 社区 ， 进 
行 积极 反馈 ， 形 成 良性 循环 ， 可 以 说 TensorFlow 框 架 是 我 们 进行 机 器 学 习 的 首选 。 


IK TensorFlow 的 发 展 


TensorFlow 从 2015 年 开源 以 来 ， 不 断 地 迭代 更 新 ， 主 要 的 更 新 版 本 如 下 。 

2015 年 11 月 9 日 ，Google 在 GitHub 上 开源 了 TensorFlow。 

2016 年 4 月 13 日 ，TensorFlow 0.8 版 本 发 布 ， 支 持 分 布 式 计算 。 

2016 年 4 月 29 日 ， 开 发 AlphaGo 的 DeepMind 团 队 转 向 TensorFlow， 增 强 了 TensorFlow 的 
力量 。 

2016 年 5 月 12 日 ， 开 源 基于 TensorFlow 的 最 准确 语法 解析 器 SyntaxNet。 

2016 年 6 月 27 日 ，TensorFlow 0.9 版 本 发 布 ， 增 强 了 移动 设备 支持 。 

2016 年 8 月 30 日 ，TF-Slim 库 发 布 ， 可 以 更 简单 、 快 速 地 定义 模型 。 

2017 年 2 月 15 日 ，TensorFlow 1.0 版 本 发 布 ， 提 高 了 框架 的 速度 和 灵活 性 。 

2017 年 8 月 17 日 ，TensorFlow 1.3 版 本 发 布 ， 将 Estimate 估 算 器 加 入 框架 。 

2017 年 11 月 2 日 ，TensorFlow 1.4 版 本 发 布 ， 将 Keras 等 高 级 库 加 入 核心 功能 。 

另外 ，TensorFlow 具 有 出 色 的 版 本 管理 和 细致 的 官方 文档 ， 活 跃 的 社区 也 在 不 断 促进 
TensorFlow 的 发 展 。 


Python+TensorFlow 机 器 学 习 实战 


[1.3.3] 使 用 TensorFlow 的 公司 


谷歌 作为 TensorFlow 的 主导 公司 ， 在 自己 的 搜索 、Gmail、 翻 译 、 地 图 和 YouTube 等 产 
品 中 均 使 用 了 TensorFlow， 这 也 是 谷歌 DeepMind 人 工 智能 项 目的 AlphaGo 和 AlphaGo Zero 
的 底层 技术 。 同 时 ， 国 外 的 airbnb、ebay 和 Dropbox 等 公司 也 在 尝试 使 用 ， 国 内 的 京东 、 小 
米 等 公司 也 在 使 用 。 图 1.2 摘 自 TensorFlow 官 网 日 益 强 大 的 公司 墙 。 
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图 1.2 ”使 用 TensorFlow 的 公司 
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TensorFlow 站 建立 在 “巨人 ”的 肩膀 上 ， 它 的 正常 运行 需要 依赖 较 多 的 底层 工具 。 主 
要 的 安装 方式 有 三 类 : 一 是 通过 Python 包 管理 工具 安装 ， 二 是 通过 Java 安 装 ; 三 是 通过 源 
代码 进行 编译 安装 ， 由 于 当前 Python 是 进行 科学 计算 的 标 配 ， 因 此 我 们 通过 Python 包 管 理 
工具 来 进行 安装 。 

TensorFlow 在 早期 只 支持 Linux 和 Mac 系统 ， 在 TensorFlow 0.12 及 后 续 版 本 中 才 添 
加 对 Windows 系 统 的 支持 。TensorFlow 的 安装 过 程 大 体 可 分 为 准备 Python 环 境 、 安 装 
沙 箱 环境 与 安装 TensorFlow 三 步 。 接 下 来 ， 我 们 逐步 实现 不 同 环境 下 TensorFlow 环 境 
的 搭建 。 


MEY 


1.4.1] Windows 环 境 


在 官网 上 提供 了 5 种 安装 TensorFlow 的 方法 。 

1) Pip 安 装 : 在 本 地 环境 中 安装 TensorFlow， 在 安装 的 过 程 中 可 能 会 升级 以 前 安装 的 
Python 包 ， 这 会 影响 本 机 现 有 的 Python 程序 。 

2) Virtualenv 安 装 : 设置 一 个 独立 的 目录 ， 在 其 中 安装 TensorFlow， 这 样 不 会 影响 到 本 
机 上 任何 现 有 的 Python 程序 。 

3) Anaconda 安 装 : 在 本 机 中 安装 并 运行 Anaconda， 在 Anaconda 中 创建 虚拟 环境 来 安 
装 TensorFlow， 这 样 不 会 影响 本 机 上 现 有 的 Python 程序 。 

4) Docker 安 装 : 在 本 机 中 建立 一 个 与 本 机 上 所 有 其 他 程序 隔离 的 Docker 容 器 ， 在 该 容 
器 中 运行 TensorFlow。 

5) 从 源 代码 安装 : 通过 构建 pip 下 载 源码 来 安装 TensorFlow。 

由 于 Anaconda 是 一 个 使 用 Python 语言 编写 的 用 于 科学 计算 的 平台 ， 因 此 它 可 以 很 方 
便 地 解决 Python 版 本 、 第 三 方 包 安装 等 问题 。 为 了 后 续 实 际 开发 的 便捷 性 ， 推 荐 大 家 使 用 
Anaconda 方 式 进行 安装 。 

1. Anaconda 安 装 

Anaconda 支 持 Linux、Mac 和 Windows 系 统 ， 在 Windows 系 统 中 的 安装 步骤 如 下 。 

(1) 下 载 Anaconda 

从 Anaconda 官 网 (https://www.anaconda.com/download/) 选 择 对 应 的 版 本 进行 下 载 ， 
如 图 1.3 所 示 。 软 件 不 算 小 ， 大 约 有 500MB。 如 果 遇 到 某 些 原 因 ， 也 可 以 选择 国内 的 镜 
像 地 址 进行 下 载 ， 比 如 清华 大 学 的 镜像 地 址 (https://mirrors.tuna.tsinghua.edu.cn/anaconda/ 
archive/)。 


Download Anaconda Distribution 


Version 5.01 | Release Date: October 25, 2017 


Download For: E. | é A 


图 1.3 下 载 Anaconda 
(2) 安装 Anaconda 
和 安装 其 他 软件 一 样 ， 如 果 没 有 什么 特别 的 需求 ， 基 本 选择 默认 安装 即 可 ， 如 图 1.4 
所 示 。 唯 一 需要 注意 的 是 ， 需 要 将 Python 3.6 添 加 到 系统 环境 变量 中 。 


"E Advanced Installation Options 
O ANACONDA Customize how Anaconda integrates with Windows 


Advanced Options 


V] Add Anaconda to my PATH environment variable 


Not recommended. Instead, open Anaconda with the Windows Start 
menu and select "Anaconda (64-bit)". This "add to PATH" option makes 
Anaconda get found before previously installed software, but may 
cause problems requiring you to uninstall and reinstall Anaconda. 


[V] Register Anaconda as my default Python 3.6 


This will allow other programs, such as Python Tools for Visual Studio 
PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.6 on the system. 


Anaconda, Inc, 


图 1.4 安装 Anacond 


(3) 验证 是 否 安装 成 功 
安装 完毕 后 ， 在 Windows 的 “开始 ”菜单 中 就 能 看 到 已 成 功 安装 的 Anaconda 了 ， 如 图 


1.5 所 示 。 
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图 1.5 验证 Anaconda 是 否 已 成 功 安装 
打开 Anaconda Prompt， 查 看 Anaconda 的 版 本 以 及 已 安装 的 第 三 方 依赖 包 ， 如 图 1.6 


所 示 。 


01 conda - version 
02 conda list 


€C: Wsers Administrator naconda3> C: Vsers\hdministrator>conda ——version 
conda 4.3.38 


《Cc:MsersNhdministratorNhnaconda3》 C:N i trator?conda list 
# packages in environment at C:Wsers Midministrator Mnaconda3: 

Li 

ipyw jlab nb ext conf 
alabaster 

anaconda 

anaconda-c lient 


EH py36he6757£0 0 
? py36hcd87829 0 
0y36h8316238. 2 
py36hd36558c 0 
py36hc720852 0 
py36h8b3bf89 Q 
py36h8e79faa 1 
lastroid : 0936h9d85297 98 
astropy .2 py36h86391c4_4 
p h35444ci 8 
0936h81696a8. 1 

a .8. py36h79ab834 2 
6 py36hd4cc5e8_1 
py36h6af124b_0 
py36h7e685f7_0 
9ca5 8 
(3d6 8 
py36h0be3b39 0 
py36hía776d2 1 


Anaconda 的 第 三 方 依赖 包 
在 第 三 方 依赖 包 中 ， 可 以 看 到 已 经 安装 NumPy、matpltlib、SymPy、scikit-image 等 常 
用 的 包 。 
(4) 配置 更 新 地 址 
由 于 Anaconda 默 认 的 代码 仓库 镜像 地 址 是 国外 的 镜像 地 址 ， 因 此 下 载 速度 比较 慢 。 
建议 将 镜像 地 址 改 为 清华 大 学 的 开源 软件 镜像 站 ， 对 Anaconda Prompt 进 行 配置 ， 如 
图 1.7 所 示 。 
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XC: Wsers Administrator naconda3> C sMidninistrator?conda config —-add chaj 
nnels htt i s.tuna.tsinghua.edu.cn/anaconda/pkgs/f ree/ 
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配置 Anaconda 更 新 地 址 
添加 完成 后 ， 可 以 在 当前 配置 信息 中 查看 ， 输 入 : 


关注 channel URLs 字 段 内 容 是 否 已 成 功 添加 清华 大 学 提供 的 镜像 地 址 ， 如 图 1.8 所 示 。 
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tuna.tsinghua.edu.cn/anaconda 


repo .continuun. io/pkgs/nain/vin-64 


查看 Anaconda 更 新 地 址 


Anaconda 可 以 创建 自己 的 计算 环境 ， 这 样 可 以 将 TensorFlow 的 环境 与 其 他 环境 进行 隔 
离 ， 不 必 来 回 修改 各 种 环境 变量 ， 也 不 必 担 心 破坏 之 前 的 环境 。 创 建 步骤 如 下 所 示 。 

(1) 创建 Conda 计 算 环 境 

在 Anaconda Prompt 中 创建 


i 


-个 名 为 tensorflow 的 沙 箱 环境 ， 如 图 1.9 所 示 ， 输 入 ; 


根据 不 同 版 本 的 Python 更 改 对 应 的 版 本 参数 。 在 创建 过 程 中 ， 如 果 出 现下 载 速度 慢 其 
至 不 成 功 的 情况 ， 可 查看 镜像 地 址 是 否 配置 成 功 。 
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创建 沙 箱 环境 
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创建 成 功 后， 可 以 打开 Windows 系 统 中 的 Anaconda Navigator， 单 击 左 侧 的 Environments， 
就 可 以 看 到 tensorflow 沙 箱 环境 ， 如 图 1.10 所 示 。 
File Help 
©) ANACONDA NAVIGATOR 
ft tome a ] Installed Į] ‘ 
@ Envir zr. root Name v T Descrip 
tensorfi » certifi O Pythonr 
E Projects (beta) D O 
D python O General 
WM Learning 
setuptools O Downloa 
图 1.10 ”查看 沙 箱 环境 
(2) 激活 tensorflow 沙 箱 环境 


如 图 1.1 所 示 ， 在 命令 行 中 继续 输入 : 


activate tensorflow 


图 1.11 激活 沙 箱 环境 
可 以 看 到 ， 用 户 名 的 前 面 有 <tensorflow> 标 识 。 这 实际 上 表明 我 们 已 经 更 换 到 名 为 
tensorflow 的 沙 箱 环境 中 。 


当 不 使 用 tensorflow 时 ， 需 要 使 用 deactivate tensorflow 进 行 关闭 。 

3. 安装 TensorFlow 的 CPU 版 本 

TensorFlow 分 为 CPU 版 本 和 GPU 版 本 。 对 于 使 用 来 说 ， 主 要 区 别 在 于 运算 速度 ， 一 般 
来 说 GPU 速度 更 快 。 这 是 由 于 CPU 和 GPU 针对 的 用 途 不 一 样 ， 在 最 初 的 设计 上 也 不 一 样 。 
在 GPU 设计 上 用 于 图 形 图 像 的 处 理 ， 在 矩阵 运算 、 数 值 计算 ， 特 别 是 浮 点 和 并 行 计 算 上 
能 优 于 CPU 设计 上 数 百 倍 的 性 能 。 在 机 器 学 习 中 ， 经 常会 用 到 许多 的 卷 积 运算 、 和 矩阵 运算 
等 ， 所 以 一 般 来 说 GPU 速度 更 快 。 但 是 ， 当 进行 计算 的 数据 集 较 小 时 ， 两 者 的 速度 差别 并 
不 大 ， 甚 至 由 于 数据 传输 的 问题 ，GPU 可 能 更 慢 。 

CPU 版 本 的 安装 更 简单 ， 我 们 先 讲解 CPU 版 本 的 安装 。 

(1) 使 用 pip 进 行 安装 

在 TensorFlow 的 沙 箱 环境 中 ， 使 用 pip 进 行 安装 ， 输 入 : 

pip install --ignore-installed --upgrade tensorflow 

下 载 速度 可 能 会 比较 慢 ， 如 果 不 在 意 是 否 为 最 新 版 本 ， 则 建议 使 用 国内 镜像 地 址 进行 
安装 。 在 https://mirrors.tuna.tsinghua.edu.cn/tensorflow/ 网 页 中 找到 需要 安装 的 TensorFlow 版 
本 地 址 ， 例 如 : 
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pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 


https://mirrors.tuna.tsinghua.edu.cn/tensorflow/windows/cpu/tensorflow- 1.3.0rc0-cp36-cp36m- 


win. amd64.whl 


安装 成 功 后 ， 在 控制 台中 会 显示 安装 成 功 的 信息 ， 如 图 1.12 所 示 。 
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图 1.12 安装 TensorFlow 


(2) 验证 是 否 成 功 
在 控制 台中 ， 输 入 : 


01 python 

02 »»» import tensorflow as tf 

03 >>> hello = tf.constant('Hello, TensorFlow!) 
04 >>> sess - tf.Session() 

05 >>> print(sess.run(hello)) 

b'Hello, TensorFlow! 


orf 


= 


若 最 后 能 够 成 功 输 入 “b' Hello, TensorFlow!'”， 则 表示 安装 成 功 ， 完 成 开发 环境 的 


准备 工作 。 
(3) 集成 到 IDE 中 


Python 的 集成 开发 工具 很 多 ， 但 是 对 于 数据 处 理 来 说 ， 可 以 选用 Spyder， 因 为 我 们 安 


装 的 Anaconda 对 它 提 供 很 好 的 支持 。 


打开 Anaconda Navigator 界 面 ， 单 击 左 侧 的 Environments， 查 看 是 否 已 经 安装 Spyder。 


若 未 安装 ， 则 选中 复 选 框 ， 并 单 击 右 下 角 的 Apply 按 钮 进 
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图 1.13 ”安装 Spyder 
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安装 ， 如 图 1.13 所 示 。 


E 


TE Anaconda Prompt il 
示 )， 输入 : 


activate tensorflow 
Spyder 


MI 管理 员 : Anaconda Prompt - Spyder 


中 启动 tensorflow 沙 箱 环境 ， 并 运行 Spyder( 如 
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1.14 所 


CC: Wsers idministrator naconda3> C: WsersVidministratoractivate tensorf lowCPU 


《tensorf lowCPU> C: sersNhdministrator>Spyder 


® Spyder (Python 16) 


图 1.14 


运行 Spyder 
等 待 一 会 儿 就 会 出 现 Spyder 界 面 ， 如 图 1.15 所 示 。 
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01 import tensorflow as tf 


02 hello = tf.constant('Hello, TensorFlow!") 


03 sess = tf.Session() 
04 print(sess.run(hello)) 


图 1.15 Spyder 界 面 
其 中 ， 也 需要 验证 是 否 关联 了 tensorflow 沙 箱 环境 。 在 编辑 框 中 输入 如 下 代码 : 


运行 后 ， 若 能 够 成 功 输 入 “b' Hello, TensorFlow!'”， 则 表示 配置 成 功 ， 如 网 1.16 


所 示 。 


Python+TensorFlow 机 ; 


In [1]: runfile('C:/Users/Administrator/.spyder-py3/temp.py', wdir-'C:/Users/ 
Administrator/.spyder-py3') 
b'Hello, TensorFlow!" 


In [2]: 


图 1.16 运行 Spyder 


需要 注意 的 是 ， 一 定 要 启用 创建 的 tensorflow 沙 箱 环境 ， 并 从 该 环境 中 打开 Spyder， 才 
能 够 关联 到 TensorFlow 的 开发 环境 ， 否 则 会 出 错 。 

4. 安装 TensorFlow 的 GPU 版 本 
由 于 使 用 GPU 进 行 机 器 学 习 运 算 时 ， 效 率 更 高 ， 因 此 接 下 来 我 们 讲解 如 何 安 装 
tensorflow 的 GPU 版 本 。 

安装 时 需要 使 用 两 个 关联 程序 ， 分 别 是 CUDA 和 cuDNN。 由 于 TensorFlow 是 Google 开 
发 的 ，CUDA 和 cuDNN 是 NVIDIA 开 发 的 ， 因 此 在 安装 的 版 本 选择 和 顺序 上 非常 重要 ， 否 
则 会 出 现 安装 失败 的 情况 。 本 书 使 用 的 是 Python 3.6、TensorFlow 1.3、CUDA 8.0、cuDNN 
6.0。 下 面 详细 介绍 安装 过 程 。 

(1) 安装 CUDA 

由 于 TensorFlow 的 GPU 版 本 依赖 于 CUDA， 因 此 我 们 首先 查看 使 用 的 GPU 是 否 支持 
CUDA 加 速 ， 一 般 来 说 NVIDIA 都 是 支持 的 。 我 们 可 以 通过 官网 进行 查询 ， 也 可 以 通过 在 
NVIDIA 的 控制 面板 中 ， 单 击 “ 系 统 信息 ”进行 查询 。 在 “系统 信息 ”对 话 框 的 “组 件 ” 
选项 卡 中 找到 NVCUDA.DLL， 只 要 能 够 找到 NVCUDA.DLL 组 件 ， 就 代表 支持 CUDA， 如 
图 1.17 所 示 。 


m OE 


| NVIDIA 硬件 及 运行 该 硬件 的 系统 的 详细 信息 。 


Sm | 组 件 


文件 名 文件 版 本 产品 名 称 â 
3D 设置 
| ES nvGameS. dll 6. 14. 13.5598 NVIDIA 3D Settings Server 


NVIDIA 3D Settings Server 
3 NVIDIA CUDA 7.5.0 driver 
NVIDIA PhysX 


dg) nvGameSR. dll 


n 


图 1.17 ”CUDA 系 统 信息 


从 NVIDIA 官 网 可 以 下 载 CUDA， 在 https://developer.nvidia.com/cuda-toolkit-archive 上 
有 所 有 的 历史 版 本 。 由 于 TensorFlow 的 更 新 不 一 定 对 应 到 CUDA 的 最 新 版 本 ， 因 此 建议 下 
载 已 通过 验证 的 版 本 组 合 。 在 其 中 选择 对 应 的 操作 系统 、 硬 件 支持 类 型 、 操 作 系 统 版 本 和 
安装 类 型 后 ， 再 下 载 安装 文件 ， 如 图 1.18 所 示 。 


Select Target Platform @ 


Click on the green buttons that describe your target platform. Only supported 
platforms will be shown. 


Operating 
System 


Architecture & 
wo 
^ Type 


Mac OSX 


The base installer is available for download below. 


Download Installer for Windows 7 x86, 64 


Installation Instructions: 


1. Double click cuda 8.0.44 windows.exe 
2. Follow on-screen prompts 


> Base Installer Download [1.2 GB) $ 


图 1.18 ”CUDA 版 本 选择 


下 载 完毕 后 ， 和 安装 其 他 软件 一 样 ， 如 果 没 有 什么 特别 的 需求 ， 基 本 选择 默认 安装 


即 可 。 


册 


(2) 下 载 cuDNN 

cuDNN 是 连接 TensorFlow 和 CUDA 的 纽带 ， 我 们 可 以 从 NVIDIA 官 网 下 载 cuDNN， 
网 址 为 https://developer.nvidia.com/rdp/form/cudnn-download-survey。 要 先进 行 用 户 注 
填写 调查 问卷 ， 再 选择 与 上 一 步 安装 的 CUDA 版 本 相 匹配 的 cuDNN 版 本 ， 如 图 1.19 


所 示 。 
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Download cuDNN v6.0 [April 27, 2017], for CUDA 8.0 


Download packages updated April 27, 2017 to resolve issues related to dilated com 
cuDNN User Guide 


cuDNN Install Guide 


cuDNN v6.0 Lib 

cuDNN v6.0 Lib 

cuDNN v6.0 Library for Windows 7 
cuDNN vó 


cuDNN v 


cuDNN v6.0 


图 1.19 下 载 cuDNN 


(3) 配置 cuDNN 

下 载 euDNN 后 解压 ， 其 文件 夹 下 有 3 个 子 文件 夹 ， 分 别 是 bin、lib 和 include。 找 
到 CUDA 的 安装 路 径 ， 若 未 做 修改 ， 则 一 般 的 路 径 是 C:\Program Files\NVIDIA GPU 
Computing Toolkit\CUDA\v8.0。 将 这 3 个 子 文件 夹 复制 到 该 目录 中 ， 与 CUDA 已 有 的 bin、 
lib 和 include 子 文件 夹 进行 合并 。 

查看 Windows 的 环境 变量 是 否 已 成 功 添加 相关 程序 路 径 。 在 “系统 变量 ”中 ， 找 到 
“Path” 变 量 ， 查 看 其 值 是 否 包含 CUDA 文 件 的 路 径 ， 例 如 : 


C:\Program Files\NVIDIA GPU Computing ToolkitCUDA\W8.ONib\x64 
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\include 
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\bin 

C:\Program Files\NVIDIA GPU Computing ToolkittCUDAW8.0\libnvvp 


如 果 未 包含 ， 请 将 相关 路 径 添加 到 “Path” 变 量 中 。 

(4) 安装 GPU 版 本 

为 了 保证 使 用 的 环境 与 CPU 版 本 的 环境 相隔 离 ， 我 们 重新 创建 一 个 沙 箱 环 境 ， 进 行 
GPU 版 本 的 安装 。 在 Anaconda Prompt 中 依次 输入 : 


01 conda create -n tensorflowGPU python-3.6 
02 activate tensorflowGPU 
03 pip install tensorflow-gpu--1.3.0 


下 载 速度 可 能 会 比较 慢 。 如 果 不 在 意 是 否 为 最 新 版 本 ， 可 以 使 用 国内 镜像 地 址 进行 安 
装 。 在 https://mirrors.tuna.tsinghua.edu.cn/TensorFlow/ 网 页 上 找到 需要 安装 的 TensorFlow 对 
应 版 本 的 地 址 ， 安 装 成 功 后 ， 在 控制 台中 会 显示 有 关 安 装 成 功 的 信息 。 

(5) 验证 是 否 成 功 

在 控制 台中 ， 输 入 : 


rr 


01 python 

02 >>> import tensorflow as tf 

03 >>> hello = tf.constant('Hello, TensorFlow!") 
04 >>> sess - tf.Session() 

05 >>> print(sess.run(hello)) 

b'Hello, TensorFlow! 


如 果 能 够 成 功 输入 “b' Hello, TensorFlow!'”， 则 表示 安装 成 功 ， 完 成 了 开发 环境 的 
准备 工作 。 
最 后 ， 参 照 安装 Spyder 开 发 环境 的 过 程 ， 对 Spyder 开 发 环境 进行 安装 。 


Linux 环 境 


前 面 详 细 讲 解 了 Windows 环 境 下 TensorFlow 的 安装 过 程 。 在 Linux 环 境 下 ，TensorFlow 
的 安装 过 程 与 Windows 环 境 下 类 似 ， 分 为 三 步 : (1) 安 装 Anaconda; (2) 建 立 Anaconda 沙 箱 
环境 ，(3) 安 装 TensorFlow。 

(1) 安装 Anaconda 

首先 从 Anaconda 官 网 (https://www.anaconda.com/download/) 选 择 对 应 的 版 本 进行 下 载 。 

然后 打开 终端 ， 输 入 相应 的 命令 进行 安装 ， 例 如 : 

bash /home/TensorFlowDownloads/Anaconda2-5.1.0-Linux-x86_64.sh 

(2) 建立 Anaconda 沙 箱 环境 

重新 打开 终端 后 ， 输 入 conda 创 建 命令 ， 例 如 : 


conda create -n tensorflow python-3.6 


(3) 安装 TensorFlow 
首先 激化 创建 的 沙 箱 环境 ， 输 入 命令 : 


Source activate tensorflow 
然后 在 tensorflow 沙 箱 环境 中 ， 使 用 pip 进 行 安装 ， 输 入 : 
pip install --ignore-installed --upgrade tensorflow 


完成 安装 后 ， 同 样 在 控制 台中 输入 如 下 代码 : 


01 python 

02 >>> import tensorflow as tf 

03 >>> hello = tf.constant(Hello, TensorFlow!") 
04 >>> sess - tf.Session() 

05 >>> print(sess.run(hello)) 

b'Hello, TensorFlow!' 


如 果 最 后 能 够 成 功 输入 “b' Hello, TensorFlow!'”， 则 表示 安装 成 功 ， 完 成 了 开发 环 
境 的 准备 工作 。 
需要 注意 的 是 ， 每 次 需要 激活 tensorflow 沙 箱 环境 后 才能 正常 运行 tensorflow 程 序 。 
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[1.4.3] Mac OS 环 境 


使 用 Mac OS 进行 环境 配置 时 ， 可 以 对 照 Linux 下 的 安装 过 程 ， 首 先 安装 Anaconda， 然 
后 建立 Anaconda 沙 箱 环境 ， 最 后 完成 TensorFlow 的 安装 。 


shell $ conda create -n tensorflow 
shell $ source activate tensorflow 
shell (tensorflow)$ pip install | ——ignore-installed --upgrade tensorflow 


| WE 常用 的 第 三 方 模块 e 


TensorFlow 的 一 大 特性 就 是 支持 大 量 的 第 三 方 模块 。 例 如 ， 在 运行 中 由 于 经 常会 处 理 
各 种 科学 计算 ， 因 此 会 使 用 NumPy; 为 了 处 理 图 像 、 音 频 、 自 然 语 言 等 ， 会 使 用 matplotlib 
scikit-image. librosa NLTK Keras 等 优秀 的 第 三 方 模块 。 在 实际 开发 环境 中 也 会 安装 常用 的 第 
三 方 模块 。 

1. NumPy 

NumPy 系 统 是 Python 的 一 种 开源 的 数值 计算 扩展 ， 用 来 存储 和 处 理 大 型 矩阵 运算 ， 比 
Python 自身 的 媒 套 列表 结构 要 高 效 得 多 ， 主 要 包括 N 维 数组 对 象 Array、 实 用 的 线性 代数 、 
傅 里 叶 变换 和 随机 数 生成 函数 等 。 

2. matplotlib 

matplotlib 是 Python 中 最 常用 的 可 视 化 工具 之 一 ， 利 用 它 可 以 非常 方便 地 创建 各 种 类 型 
的 2D 图 表 和 一 些 基 本 的 3D 图 表 。 仅 使 用 几 行 代码 ， 便 可 生成 绘图 、 直 方 图 、 功 率 谱 、 条 
形 图 、 错 误 图 和 散 点 图 等 。 

3. scikit-image 

scikit-image 是 图 像 处 理 和 计算 机 视觉 的 算法 集合 。 相 比 OpenCV 库 而 言 ，scikit-image 
是 一 个 精简 轻便 的 框架 且 易 于 安装 ， 非 常 适合 用 于 TensorFlow 中 图 像 的 预 处 理 。 

4. librosa 

librosa 是 Python 的 一 个 工具 包 ， 在 音频 信号 分 析 中 经 常用 到 ， 是 进行 音频 特征 提取 的 
第 三 方 库 。 

5. NLTK 

NLTK 是 一 个 高 效 的 Python 工 具 ， 用 来 处 理 人 类 自然 语言 数据 。 它 包括 50 多 个 语料库 
和 词汇 资源 ， 并 能 够 很 方便 地 完成 对 词语 的 分 类 、 标 记 化 、 词 干 标记 、 解 析 和 语义 推理 等 
自然 语言 处 理 任务 。 

6. Keras 

Keras 原 本 是 基于 TensorFlow 和 Theano 进 行 的 模块 化 封装 ， 提 供 较为 上 层 的 API， 人 多 
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许可 配置 的 模块 ， 可 以 非常 容易 地 实现 深度 学 习 的 原型 。 后 来 ，TensorFlow 将 其 添加 到 
TensorFlow 核 心 的 高 级 别 框架 中 ， 成 为 TensorFlow 的 默认 API。 


| WI 本 章 小 结 


本 章 主要 讲解 了 人 工 智能 、 机 器 学 习 的 发 展 过 程 和 入 门 方 法 。 对 比 了 目前 主流 的 机 器 
学 习 框 架 ， 介 绍 了 TensorFlow 的 优势 和 发 展 过 程 。 最 后 ， 详 细 讲 解 了 TensorFlow 开 发 环境 
的 准备 过 程 ， 以 及 在 实际 开发 过 程 中 常用 的 第 三 方 模块 。 
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TensorFlow 基 础 


第 1 章 介绍 了 机 器 学 习 的 基础 知识 ， 
准备 了 TensorFlow 的 开发 环境 。 接 下 
来 ， 将 具体 讲解 机 器 学 习 算法 中 最 普遍 使 
用 的 学 习 框 架 TensorFlow， 并 通过 一 个 
TensorFlow 程 序 讲解 基本 概念 以 及 可 视 化 
方面 的 基础 知识 。 


TensorFlow 基 础 框架 


[2.1.1] 系统 框架 


虽然 TensorFlow 框 架 的 版 本 在 不 断 更 新 ， 但 是 其 系统 架构 并 没有 发 生根 本 性 的 改变 。 
它 以 不 同 功能 需求 进行 分 层 处 理 ， 以 统一 接口 屏蔽 具体 实现 ， 从 而 集中 各 自 的 关注 层次 ， 
更 好 地 提升 TensorFlow 的 适用 性 ， 系 统 架 构 如 图 2.1 所 示 。 


I | 
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TAR 


C 语 言 接口 


图 2.1 ”系统 框架 ' 


从 中 可 以 很 明显 地 看 出 ，TensorFlow 系 统 框架 分 为 三 层 ， 由 上 而 下 依次 是 应 用 层 、 接 


层 和 核心 层 。 
1. 应 用 层 


应 用 层 是 TensorFlow 框 架 的 最 上 层 ， 主 要 提供 了 机 器 学 习 相关 的 训练 库 、 预 测 库 以 及 
针对 Python、C++ 和 Java 等 编程 语言 的 编程 环境 ， 便 于 不 同 编程 语言 在 应 用 层 通过 接口 层 


调用 TensorFlow 核 心 功 能 以 实现 相关 实验 和 应 用 。 可 以 将 应 用 层 理解 为 系统 的 前 端 ， 这 样 
便于 使 用 Python 等 语言 进行 编程 ， 主 要 实现 对 计算 图 的 构造 。 


2. 接口 层 


接口 层 是 对 TensorFlow 功 能 模块 的 封装 ， 便 于 其 他 语言 平台 调用 。 


3. 核心 层 


核心 层 是 TensorFlow 进 行 运算 学 习 的 最 重要 部 分 ， 包 括 设备 层 、 网 络 层 、 数 据 操作 


层 和 图 计算 层 。 
计算 。 
(1) 设备 层 
设备 层 主要 


可 以 将 核心 层 理解 为 系统 的 后 端 ， 它 对 前 端 提 出 的 计算 命令 进行 具体 的 


包括 TensorFlow 在 不 同 硬件 设备 上 的 实现 ， 主 要 支持 CPU、GPU 和 Mobile 


等 不 同 设备 。 通 过 在 不 同 的 硬件 设备 上 实现 计算 命令 转换 ， 给 上 层 提供 统一 的 接口 ， 实 现 
程序 的 跨 平台 功能 。 


1 参考 https://tensorflow.google.cn/extend/architecture。 


(2) 网 络 层 

网 络 层 主要 包括 RPC(Remote Procedure Call， 远 程 过 程 调 用 ) 和 RDMA(Remote 
Direct Memory Access， 远 程 直接 内 存 访问 ) 通 信 协 议 ， 主 要 实现 不 同 设备 间 的 数据 传输 
和 更 新 ， 这 些 协议 都 会 在 分 布 式 计算 中 用 到 。 

(3) 数据 操作 层 

数据 操作 层 以 Tensor 为 处 理 对 象 ， 实 现 Tensor 的 各 种 操作 或 计算 。 这 些 操作 包括 
MatMul 等 计算 操作 ， 也 包含 Queue 等 非 计算 操作 。 

(4) 图 计算 层 

图 计算 层 中 主要 包括 分 布 式 计 算 图 和 本 地 计算 图 的 实现 ， 主 要 实现 了 图 的 创建 、 编 
译 、 优 化 和 执行 等 部 分 。 


EXE] 系统 的 特性 


TensorFlow 的 系统 架构 具备 许多 特性 ， 在 官网 中 着 重 介绍 了 它 的 高 度 灵 活性 (Deep 
Flexibility)、 真 正 的 可 移植 性 (True Portability)、 连 接 研究 与 产品 (Connect Research and 
Production)、 自 动 微分 (Auto-Differentiation)、 多 语言 选择 (Language Options) 以 及 最 大 化 性 
能 (Maximize Performance) 六 大 特性 。 

1. 高 度 灵 活性 

TensorFlow 不 是 一 个 死板 的 神经 网 络 库 ， 只 要 能 够 将 计算 表示 成 数据 流 图 ， 驱 动 计算 
的 内 部 循环 就 可 以 使 用 TensorFlow 来 实现 。 除 了 系统 提供 的 神经 网 络 中 的 常见 子 图 外 ， 还 
要 能 编写 TensorFlow 之 上 的 库 ， 这 样 可 以 极 大 地 减少 重复 代码 量 。 

2. 真正 的 可 移植 性 

TensorFlow 可 以 运行 在 CPU 和 GPU 上 ， 也 可 以 在 桌面 端 、 服 务 器 、 移 动 端 、 云 端 服务 
器 和 Docker 等 各 类 终端 上 运行 。 只 要 有 实现 机 器 学 习 的 想法 ， 无 需 任何 特定 的 硬件 就 能 完 
成 基础 的 尝试 。 

3. 连接 研究 与 产品 

可 以 让 产品 研究 人 员 更 快 地 将 想法 变 为 产品 ， 可 以 让 学 术 研 究 人 员 更 直接 地 共享 
代码 ， 具 有 更 大 的 科学 产 出 率 。 过 去 将 机 器 学 习 想 法 从 研究 转变 成 产品 时 ， 一 般 都 需 
要 大 量 的 代码 重 写 工 作 ， 现 在 研究 人 员 在 TensorFlow 中 进行 新 算法 的 实验 ， 产 品 团队 
TensorFlow 来 训练 模型 并 实时 地 使 用 模型 为 真实 的 消费 者 服务 。 

4. 自动 微分 

TensorFlow 能 够 自动 完成 微分 计算 操作 。 在 基于 梯度 的 机 器 学 习 算 法 中 求 微分 是 重要 
的 步 又， 使 用 TensorFlow 完 成 机 器 学 习 ， 只 需要 定义 预测 模型 的 计算 结构 、 目 标 函 数 ， 然 
后 添加 数据 便 能 完成 微分 计算 。 
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5. 多 语言 选择 

TensorFlow 附 带 了 Python、C++ 和 Java 等 接口 来 构建 用 户 程序 ， 后 续 还 会 附带 Lua、 
JavaScript 或 R 等 。 

6. 最 大 化 性 能 

TensorFlow 对 线程 、 队 列 和 异步 计算 具有 一 流 的 支持 ， 可 以 让 你 最 大 限度 地 利用 可 用 
硬件 ， 即 使 拥有 具有 32 核 CPU 和 4 块 GPU 的 工作 站 ，TensorFlow 也 可 以 将 TensorFlow 中 的 计 
算 需 求 分 配 到 CPU 和 GPU 中 ， 实 现 同时 计算 的 效果 ， 从 而 最 大 化 地 利用 硬件 资源 。 


2.1.3 编程 模型 


TensorFlow 有 自己 的 设计 理念 和 编程 模型 ， 理 解 其 编程 模型 是 后 续 进 行 机 器 学 习 的 
基础 。 

TensorFlow 的 设计 理念 以 数据 流 为 核心 ， 当 构建 相应 的 机 器 学 习 模型 后 ， 使 用 训练 数 
据 在 模型 中 进行 数据 流动 ， 同 时 将 结果 以 反 向 传播 的 方式 反馈 给 模型 中 的 参数 ， 以 进行 调 
整 ， 使 用 调整 后 的 参数 对 训练 数据 再 次 进行 迭代 计算 。 

所 以 ， 可 以 将 TensorFlow 理 解 为 一 张 计算 图 中 “ 张 量 的 流动 ”， 其 由 Tensor 和 Flow 两 
部 分 组 成 。Tensor( 张 量 ) 代 表 了 计算 图 中 的 边 ，Flow( 流 动 ) 代 表 了 计算 图 中 因 节 点 所 做 的 操 
作 而 形成 的 数据 流动 。 

下 面 通过 一 张 基础 的 数据 流 图 来 说 明 数 据 流 图 中 的 各 个 要 素 ， 如 图 2.2 所 示 。 

该 图 的 计算 过 程 是 回归 模型 计算 ， 在 图 中 数据 由 下 向 上 运行 ， 主 要 包括 输入 (Input)、 
重 塑 (Reshape)、ReLu 层 (ReLu Layer)、Logit 层 (Logit Layer). Softmax7;ik. ^£ X Wh(Cross 
Entropy)、 梯 度 (GradienD、SGD 训 练 (SGD Trainen) 等 步骤 。 

计算 过 程 从 输入 开始 ， 经 过 重 塑 成 为 统一 格式 ， 然 后 进行 下 一 步 运算 。 

在 ReLu 层 有 两 个 参数 : 也 ,和 b,,。 使 用 ReLu 层 的 激活 函数 进行 非 线 性 计算 处 理 后 ， 进 
入 Logit 层 。 

在 Logit 层 有 另外 两 个 学 习 参 数 : 歼 , 和 b,,， 用 于 存储 计算 的 结果 。 

完成 计算 后 使 用 Softmax 方 法 计算 出 各 类 输出 结果 的 概率 分 布 。 同 时 ， 用 交叉 和 度 量 
源 样本 概率 分 布 和 输出 结果 概率 分 布 之 间 的 相似 性 。 然 后 使 用 两 、p、 刺 和 Dam 以 及 交 
又 业 结 果 来 计算 梯度 ， 随 后 进入 SGD 训 练 。 

在 SGD 训 练 中 ， 通 过 梯度 计算 值 反 向 传播 ， 依 次 更 新 me、 丈 。、pu 和 有 两;,， 然 后 再 次 
进行 计算 ， 不 断 地 进行 迭代 学 习 。 


Classesz [10] 


Logit 层 


图 2.2 ”数据 流 图 ” 


[2.1.4 sess 


TensorFlow 除 了 以 数据 流 为 核心 外 ， 在 编程 实现 过 程 中 还 具备 两 大 特点 。 

1. 将 图 的 定义 和 图 的 运行 完全 分 开 

使 用 TensorFlow 进 行 编程 与 使 用 Python 等 进行 编程 有 明显 的 区 别 。 在 使 用 Python 进行 
编程 时 ， 只 要 定义 了 相关 变量 以 及 运算 ， 在 程序 运行 时 就 会 直接 执行 相关 运算 得 到 结果 。 
但 是 ， 在 TensorFlow 中 ， 需 要 预先 定义 各 种 变量 ， 建 立 相 关 数 据 流 图 ， 在 数据 流 图 中 定义 
各 种 变量 之 间 的 计算 关系 ， 以 此 完成 图 的 定义 。 此 时 ， 图 只 是 运算 规则 ， 没 有 任何 实际 数 


1 ”参考 http://tensorfly.cn/images/tensors_flowing.gif。 
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据 ， 需 要 把 运算 的 输入 数据 放 进去 后 ， 才 会 形成 输出 值 。 

2. 图 的 计算 在 会 话 中 执行 

TensorFlow 的 相关 计算 在 图 中 进行 定义 ， 而 图 的 具体 运行 环境 在 会 话 (Session) 中 。 只 
有 开启 会 话 后 ， 才 可 以 使 用 相关 数据 去 填充 节点 ， 这 样 才能 开始 计算 ， 关 闭会 话 后 ， 就 不 
能 再 进行 计算 了 。 

为 了 更 直观 地 感受 TensorFlow 编 程 的 特点 ， 下 面 分 别 使 用 Python 的 编程 思路 和 
TensorFlow 的 编程 思路 来 实现 简单 的 数学 计算 。 

例如 ， 我 们 需要 计算 y=a*btc， 其 中 a=3，b=4，c=5。 

在 Python 中 ， 直 接 进行 变量 以 及 运算 的 定义 ， 最 后 打印 输出 ， 具 体 实现 如 下 : 

01 a=3 

02 b=4 

03 c=5 

04 y=a*b+c 

05 print(y) 

运行 上 述 代 码 后 会 直接 输出 最 终 的 计算 结果 17。 

在 TensorFlow 中 ， 我 们 也 输入 类 似 的 代码 : 


01 import tensorflow as tf 

02 a=3 

03 b=4 

04 c=5 

05 y=tf.add(a*b、 c) 

06 print(y) 

运行 上 述 代码 ， 具 体 输出 如 下 : 
Tensor("Add:0"、shape=()、dtype=int32) 


可 以 看 出 并 没有 输出 运算 结果 ， 而 是 输出 了 一 个 Tensor， 这 是 因为 我 们 仅仅 完成 了 图 
的 定义 ， 而 没有 具体 进行 运算 。 

如 果 需 要 在 TensorFlow 中 实现 该 运算 ， 就 需要 满足 TensorFlow 中 计算 的 几 个 阶段 ， 首 
先 定义 计算 图 ， 然 后 创建 会 话 ， 最 后 完成 计算 。 具 体 实现 如 下 : 


01 import tensorflow as tf #5 引用 TensorFlow 
02 # 创 建 图 
03 a-tf.constant(3. tf.float32) # 定 义 常数 变量 a 


04 b=tf.constant(4、tf.float32) 

05 c=tf.constant(5、 tf.float32) 

06 y-tf.add(a*b. c) # 定 义 计算 公式 
07 print(y) 

08 # 创 建 会 话 

09 sess = tf.Session() 

10 «T 

11 print( sess.run(y)) 

12 sess.close() # 关 闭会 话 


为 了 便于 对 比 ， 在 完成 图 的 创建 后 以 及 计算 完成 后 分 别 输出 了 结果 ， 详 细 的 代码 含义 
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将 在 后 续 章 节 中 讲解 ， 运 行 结果 如 下 : 


Tensor(Add 2:0". shape-(). dtype-float32) 
17.0 


可 以 看 出 ， 只 有 在 会 话 中 完成 计算 后 才 会 输出 计算 结果 17。 

TensorFlow 采 用 这 样 的 设计 主要 是 因为 它 是 针对 机 器 学 习 的 框架 ， 消 耗 最 多 的 是 对 输 
入 数据 的 训练 。 这 样 设 计 的 好 处 在 于 当 进 行 计算 时 ， 图 已 经 确定 ， 计 算 就 是 一 个 不 断 迭 代 
优化 的 过 程 。 


M22 TensorFlow 源 代码 结构 分 析 t^ 


前 面 介绍 了 TensorFlow 的 特点 ， 为 了 更 深入 地 理解 TensorFlow 的 设计 ， 以 便 后 续 更 好 
地 掌握 各 种 机 器 学 习 模型 ， 下 面 梳理 一 下 TensorFlow 的 源 代码 。 


| 2.2.1 asc 


TensorFlow 的 源 代码 在 GitHub 上 进行 了 开源 ， 在 GitHub 中 将 Tags 选 择 为 1.6 版 本 ， 如 图 2.3 
的 左 图 所 示 。 跳 转 到 1.6 版 本 后 ， 对 源 代码 进行 下 载 并 解压 到 本 地 ， 如 图 2.3 的 右 图 所 示 。 


Branch: master v New pull request 


Switch branches/tags 


ee 


Branches ^ Tags 
v1.6.0 


v1.6.0-rc1 Clone with HTTPS (3) 
pl Use Git or checkout with SVN using the web URL. 


v1.6.0-rcO 

https://github.com/tensorflow/tensorflow.g | E} 
v1.5.0 
v1.5.0-rc1 Open in Desktop Download ZIP 


62.3 ” 源 代码 下 载 图 ' 


| 2.2.2| TensorFlow 目 录 结构 


我 们 以 TensorFlow 1.6 版 本 为 例 ， 看 看 其 代码 结构 。 


一 一 tensorflow # 主 目录 ， 核 心 文件 夹 
一 一 third_party # 第 三 方 库 ， 主 要 包括 eigen3、gpus、hadoop 和 jpeg 等 


1 ” 源 代码 下 载 地 址 为 https://github.com/tensorflow/tensorflow/。 


一 一 tools 

——Uutil/python 

— ACKNOWLEDGMENTS 
一 一 ADOPTERS.md 

一 一 AUTHORS 

——BUILD 

— -CODEOWNERS 
——CODE. OF CONDUCT.md 
——CONTRIBUTING.md 
——|SSUE. TEMPLATE.md 
——LICENSE 
——README.md 
——RELEASE.md 
——WORKSPACE 

——-arm compiler.BUILD 
一 一 configure 

一 一 configure.py 

一 一 models.BUILD 
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# 工 具 ， 最 新 功能 


# 版 权 说 明 
# 使 用 TensorFlow 的 人 员 或 组 织 列表 
#TensorFlow 作 者 的 官方 列表 


# 代 码 贡献 者 
# 行 为 准则 
# 贡 献 指南 
剂 SSUE 模 板 
# 版 权 许可 


# 版 本 更 新 说 明 


其 中 ， 最 重要 的 源 代码 保存 在 tensorflow 目 录 中 ， 目 录 结 构 如 下 : 


— 
一 一 cc 

一 一 compiler 
一 一 contrib 

——core 

——docs src 

一 一 examples 
——g3doc 

一 -oo 

——jeva 

— python 

——stream. executor 
一 一 tools 

一 一 User_ops 

一 一 clang-format 
——BUILD 
——SECURITY.md 
— jk .py 

一 一 tensorflow.bzl 

一 一 tf_exported_symbols.lds 
—tf_version_script.lds 
——workspace.bzl 


[2.2.3] 重点 目录 


# 使 用 C++ 实现 的 训练 样 例 


HERR T RADARES RAPI 

# 使 用 C++ 实现 的 主要 目录 

# 文 档 

# 各 种 示例 ， 已 调整 为 独立 的 模型 

太原 代码 文档 ， 已 不 再 存放 在 此 文件 夹 中 


# 流 处 理 
# 工 具 


# 安 全 说 明 


下 面 介 绍 tensorflow 目 录 中 的 几 个 重要 目录 。 


1. contrib 


contrib 目 录 中 保存 的 是 TensorFlow 中 经 常用 到 的 功能 ， 其 中 常用 的 几 个 功能 如 下 。 
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O Android 

新 增加 的 功能 ， 主 要 提供 了 在 Android 系 统 上 对 TensorFlow 的 支持 。 

O cudnn mn 

实现 基于 cuDNN 的 循环 神经 网 络 。 

O framework 

公共 框架 方法 ， 包 括 大 量 函 数 的 定义 ， 也 包括 一 些 被 废弃 的 函数 。 

O layers 

TensorFlow 中 分 层 的 实现 ， 主 要 包括 initializers.py、layers.py、optimizers.py、 
regularizers.py 和 summaries.py 等 文件 。 其 中 initializers.py 主 要 是 完成 对 变量 初始 化 的 函数 ， 
layers.py 主 要 是 关于 层 操作 和 权重 偏 置 变量 的 函数 ，optimizers.py 主 要 包括 损失 函数 和 
global_step 张 量 的 优化 操作 ，regularizers.py 主 要 包括 带 有 权重 的 正则 化 操作 。 

口 learn 
主要 是 进行 深度 学 习 的 API， 主 要 包括 训练 模型 和 评估 模型 、 读 取 批 处 理 数据 和 队列 
功能 的 封装 。 

口 slim 

TensorFlow-Slim(TF-Slim) 是 一 个 轻 量 级 的 库 ， 主 要 用 于 定义 、 训 练 和 评估 TensorFlow 
中 的 模型 。 

口 tensorboard 

主要 是 对 TensorFlow 训 练 图 表 可 视 化 工具 的 数据 记录 。 

2. core 

core 目 录 中 保存 的 是 TensorFlow 的 底层 实现 ， 是 C 语 言 文件 ， 包 括 公共 运行 库 、 基 础 
功能 模块 和 核心 操作 等 。 下 面 介 绍 它 的 两 个 重要 功能 。 

O protobuf 
用 于 传输 时 的 数据 序列 化 。 谷 歌 公司 创建 了 一 种 新 的 数据 序列 化 工具 Protocol 
Buffer， 而 不 是 使 用 XML 等 方式 来 对 结构 化 数据 进行 序列 化 。 在 TensorFlow 中 就 是 使 用 
Protocol Buffer 来 完成 RPC 数 据 传递 的 。 

O framework 
主要 包括 设备 、 节 点 、 操 作 及 属性 等 基层 功能 模块 。 

3. examples 

examples 目 录 中 提供 了 深度 学 习 的 一 些 示 例 ， 特 别 是 ， 该 目录 中 的 android 目 录 是 在 
Android 系 统 中 实现 的 移动 端 应 用 。 但 是 某 些 示 例 已 被 调整 到 独立 的 models 项 目 中 。 

4. python 

python 目 录 中 提供 了 机 器 学 习 中 经 常用 到 的 激活 函数 、 池 化 函数 、 损 失 函 数 以 及 循环 
神经 网 络 函 数 等 。 
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| EX TensorFlow 基 本 概念 ^ 


在 前 面 章 节 中 ， 我 们 介绍 了 TensorFlow 的 设计 理念 ， 了 解 到 具有 自身 特点 的 张 量 、 节 
点 、 占 位 符 和 会 话 等 概念 。 在 本 节 中 ， 将 对 这 些 基本 概念 进行 详解 。 


| 2.3.1| Tensor 


Tensor 即 张 量 ， 是 最 基本 的 概念 ， 也 是 TensorFlow 中 最 主要 的 数据 结构 。 张 量 用 于 在 
计算 图 中 进行 数据 传递 ， 但 是 创建 了 一 个 张 量 后 ， 不 会 立即 在 计算 图 中 增加 该 张 量 ， 而 需 
要 将 该 张 量 赋值 给 一 个 变量 或 占 位 符 ， 之 后 才 会 将 该 张 量 增 加 到 计算 图 中 。Tensor 中 存储 
的 数据 类 型 如 表 2.1 所 示 。 


表 2.1 Tensor 中 的 数据 类 型 


数据 类 型 。 ”| Python 类 型 | m ow 


DT FLOAT 32 位 浮 点 数 
DT_DOUBLE 64 位 浮 点 数 
DT_INT64 | tfint64 | 64 位 有 符号 整 型 
DT_INT32 32 位 有 符号 整 型 
DT INTI6 16 位 有 符号 整 型 
DT_INTS 8 位 有 符号 整 型 
DT UINT8 8 位 无 符号 整 型 
DT STRING 可 变 长 度 的 字 节 数组 ， 每 一 个 张 量 元 素 都 是 一 个 字 忆 数组 
DT BOOL 布尔 型 
DT_COMPLEX64 由 两 个 32 位 浮 点 数组 成 的 复数 ， 实 数 和 虚数 
DT_QINT32 用 于 量化 操作 的 32 位 有 符号 整 型 
DT QINTS 用 于 量化 操作 的 8 位 有 符号 整 型 


DT QUINTS 用 于 量化 操作 的 8 位 无 符号 整 型 


张 量 的 生成 方式 有 很 多 种 ， 例 如 固定 张 量 、 相 似 张 量 、 序 列 张 量 和 分 布 函数 张 量 等 ， 
具体 实现 如 下 ; 


01 import tensorflow as tf 


02 row-3.0 

03 col-4.0 

04 zero tsr- tfzeros([row. col]) # 值 为 0， 指 定 维度 的 张 量 

05 ones tsr-tf.ones([row. col]) # 值 为 1， 指 定 维度 的 张 量 

06 filled tsr-tf.fil[3. 4]. 2.0) # 指 定 填充 数值 2.0， 指 定 维度 的 张 量 

07 constant_tsr=tf.constant([1、 2、3]) # 已 知 常数 张 量 

08 zeros_similar=tf.zeros_like(constant_tsr) # 所 有 元 素 为 0， 与 constant_tsr 类 型 一 致 的 张 量 
09 ones similar-tf.ones like(constant tsr) # 所 有 元 素 为 1， 与 constant_tsr 类 型 一 致 的 张 量 
10 liner tsr-tf.linspace(start-0.0. stop-2.0. num-3) # 创 建 指定 区 间 、 等 间距 的 张 量 
11 integer_seq_str=tf.range(start=0、limit=5、delta=1) # 创 建 指定 区 域 、 间 隔 的 张 量 


12 randunif tsr-tf.random uniform([3. 4]. minval-0. maxval-2) # 创 建 均匀 分 布 随机 数 的 张 量 
13 randnorm tsr-tf.random normal([3. 4]. mean-0.0. stddev-1.0) ”# 他 | 建 正 态 分 布 随 机 数 的 张 量 
14 runcnorm tsr-tf.truncated normal([3. 4]. mean-0.0. stddev-1.0) # 创 建 指定 边界 的 正 态 分 布 张 量 


其 中 ， 第 10 行 表示 在 0 和 2 之 间 ， 包 括 2， 等 间距 地 取 3 个 值 的 张 量 。 

第 11 行 表示 在 0 和 5 之 间 ， 不 包括 5S， 间 距 为 1 进行 取 值 后 组 成 的 张 量 。 

第 12 行 表示 从 最 小 值 minval( 包 括 ) 到 最 大 值 maxval( 不 包括 ) 取 均匀 分 布 随机 数 的 张 量 。 
第 13 行 表示 取 的 随机 数 符合 指定 均值 的 正 态 分 布 张 量 。 

第 14 行 表示 取 的 正 态 分 布 随机 数位 于 指定 均值 到 两 个 标准 差 之 间 的 张 量 。 

在 环境 中 查看 实际 输出 张 量 的 结果 ， 在 代码 中 增加 会 话 ， 具 体 实现 如 下 : 


01 print (zero tsrtensoris'. zero tsr) 

02 init op = tf.global variables initializer() 
03 sess = tf.Session() 

04 with tf.Session() as sess: 

05  sess.run(init op) 

06  print(zero tsris'. sess.run(zero tsr)) 
07 sess.close() 


有 关 会 话 的 相关 内 容 将 在 后 面 章 节 中 介绍 ， 在 此 只 查看 输出 结果 ， 如 图 2.4 所 示 。 


zero tsr tensor is Tensor("zeros 1:0", shape-(3, 4), dtype-float32) 

zero tsr is [[ 0. 0. ©. e.] 

[9. e. e. e.] 
e.] 


[9. e. e. e.j] 

ones tsr is [[ 1. 1. 1. 1.] 
[1. 1. 1. 1.] 

[1. i. 1. 1.1] 

filled tsr is [[2. 2. 2. 2.] 
[3. X 2. 2.1 

[2. 2. 2. 2.] 


] 

constant tsr is [1 2 3] 

zeros similar is [0 e 0] 

ones similar is [1 1 1] 

liner tsr is [ 0. 1. 2.] 

integer seq str is [0 1 2 3 4] 

randunif tsr is [[ 0.0780561  0.03203201 1.27613521 90.23588586] 
[ 1.05239773 20.51797462 20.66219854 1.67205572] 
[ 1.98739982 1.79006505 1.03210258 1.83870769]] 

randnorm tsr is [[-1.78995657 1.57353461 -0.05314546 0.13447268] 
[-1.59547877 -0.75308609 -0.42012325 -0.29929173] 
[ 09.46082702 20.68286467 20.88711965 0.8505106 ]] 

runcnorm tsr is [[-0.35975182 20.77057737 -0.26349056 -1.34077311] 
[-1.01365018 20.9510414 -1.34152007 -1.58084857] 
[ 0.97464138 -6.1860951 -0.31274313 -0.32637995]] 


图 2.4 Tensor 的 输出 结果 


| 2.3.2| Variable 


Variable 即 变量 ， 一 般 用 来 表示 图 中 的 各 个 计算 参数 ， 包 括 和 矩阵 和 向 量 等 ， 它 在 计 
算 图 中 有 固定 的 位 置 。 一 般 我 们 在 TensorFlow 中 通过 调整 这 些 变 量 的 状态 来 优化 机 器 学 
习 算 法 。 
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创建 变量 应 使 用 tf.Variable0 函 数 ， 通 过 输入 一 个 张 量 ， 返 回 一 个 变量 。 变 量 声 明 后 需 
要 进行 初始 化 才能 使 用 。 通 过 打印 张 量 和 变量 ， 可 对 比 它们 不 同 之 处 ， 具 体 实现 如 下 : 


01 #Variable 
02 tensor =tf.zeros([1、 2]) # 声 明 张 量 
03 m var = tf. Variable(tensor) # 声 明 变 量 


04 init op = tf.global variables initializer() 
05 sess = tf.Session() 
06 with tf.Session() as sess: 


07  print(tensoris'. sess.run(tensor)) SETEDSKER AS 

O8  printm varfirstis'. sess.run(m var)) EJEDSERHMSSR, fugis 
09  sess.run(init op) # 初 始 化 变量 

10  printm varsecondis'. sess.run(m var)) SETEDSEERASR. 


其 中 ， 在 第 08 行 第 一 次 打印 变量 的 结果 ， 此 时 还 没有 对 其 进行 初始 化 ， 会 报错 。 
在 第 09 和 第 10 行 ， 对 所 有 变量 进行 了 初始 化 ， 这 样 能 够 成 功 打印 结果 ， 如 图 2.5 
所 示 。 


tensor is [[ 0. 0. 
Traceback (most recent call last): 


FailedPreconditiontrror: Attempting to use uninitialized value Variable 1 
[[Node: retval Variable 1 0 0 = Retval[T«OT FLOAT, index=8, device«"/job:localhost/replica:0/task:0/device:CPU:0"](Variable 1)]] 


tensor is [[ 6. 9.]] 
m var second is [[ 09. 9.]] 


图 2.5 Variable 的 输出 结果 


| 2.3.3| Placeholder 


Placeholder 即 占 位 符 ， 用 于 表示 输入 输出 数据 的 格式 ， 允 许 传 入 指定 类 型 和 形状 的 数 
据 。 占 位 符 仅仅 声明 了 数据 位 置 ， 告 诉 系统 这 里 有 一 个 值 、 向 量 或 矩阵 等 ， 现 在 还 没 法 给 
出 具体 数值 。 占 位 符 通过 会 话 的 feed_dict 参 数 获 取 数 据 ， 在 计算 图 运行 时 使 用 获取 的 数据 
进行 计算 ， 计 算 完毕 后 获取 的 数据 就 会 消失 。 

例如 ， 给 出 一 维 数组 X[1.0,2.0] 和 Y[10.0,11.0] 中 对 应 值 相 加 的 计算 结果 ， 使 用 占 位 符 
的 具体 实现 如 下 : 

01 s placeholder 


02 x-tf.placeholder(tf.float32) # 声 明 占 位 符 x 
03 y=tf.placeholder(tf.float32) # 声 明 占 位 符 y 
04 z-tf.add(x. y) # 相 加 计算 


05 sess - tf.Session() 
06 with tf.Session() as sess: 
07  print(sess.run( [z], feed dict-pc[1.0. 2.0]. y:[10.0. 11.0] )) # 获 取 数 据 进行 计算 


运行 上 述 代码 ， 计 算 结果 如 图 2.6 所 示 。 
| [array([ 11., 13.]，dtype=float32)] 


图 2.6 ”Placeholder 的 输出 结果 


æl 


ls 
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占 位 符 和 变量 都 是 TensorFlow 计 算 图 的 关键 工具 ， 请 务必 理解 两 者 的 区 别 及 正确 的 使 
用 方法 。 


[2.3.4| Session 


Session 即 会 话 ， 是 TensorFlow 中 计算 图 的 具体 执行 者 ， 与 图 进行 实际 的 交互 。 一 个 会 
话 中 可 以 有 多 个 图 ， 会 话 的 主要 目的 是 将 训练 数据 添加 到 图 中 进行 计算 ， 当 然 也 可 以 修改 
图 的 结构 。 

对 于 会 话 有 两 种 调用 方式 ， 一 种 方式 是 明确 地 调用 会 话 的 生成 函数 和 关闭 函数 ， 具 
体 实现 如 下 。 


01 sess - tf.Session() 
02 sess.run(...) 
03 sess.close() 


使 用 这 种 调用 方式 时 ， 要 明确 调用 sess.close()， 以 释放 资源 。 如 果 程 序 异常 退出 ， 关 
闭 函 数 就 不 能 被 执行 ， 从 而 导致 资源 泄漏 。 
另 一 种 方式 是 利用 上 下 文 管理 机 制 自动 释放 所 有 资源 ， 具 体 实现 如 下 : 


01 with tf.Session() as sess: 
02 sess.run(...) 


使 用 这 种 调用 方式 时 不 需要 再 调用 sess.close() 来 释放 资源 ， 在 退出 with 语 句 时 ， 会 话 
会 自动 关闭 并 释放 资源 。 


EE Operation 


Operation 即 操作 ， 是 TensorFlow 图 中 的 节点 ， 它 的 输入 和 输出 都 是 Tensor。 它 的 作 
用 是 完成 各 种 操作 ， 包 括 运算 操作 、 和 矩阵 操作 和 神经 网 络 构 建 操作 等 。 主 要 操作 如 表 2.2 
所 示 。 


表 2.2 ”主要 操作 


数学 运算 操作 
数组 运算 操作 
矩阵 运算 操作 
神经 网 络 构建 操作 
检查 点 操作 

队列 和 同步 操作 
张 量 控制 操作 


Add. Sub. Mul. Div. Exp. Log. Greater. Less, Equal 
Concat. Slice. Split, Constant, Rank. Shape. Shuffle 
MatMul. MatrixInverse. MatrixDeterminant 

Softmax. Sigmoid. ReLU. Convolution2D, MaxPool 


Save. Restore 


Enqueue, Dequeue. MutexAcquire. MutexRelease 
Merge. Switch. Enter. Leave. Nextlteration 


TensorFlow 不 仅 提供 了 常见 的 数学 运算 、 数 组 运算 、 拢 阵 运算 等 数学 操作 ， 更 重要 的 
是 提供 了 针对 神经 网 络 的 操作 ， 包 括 激 活 函数 、 池 化 函数 、 数 据 标准 化 函数 、 分 类 函数 、 
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损失 函数 、 卷 积 函数 和 循环 神经 网 络 等 ， 具 体内 容 将 在 后 续 章 节 中 介绍 。 


| 2.3.6| Queue 


Queue 即 队列 ， 也 是 图 中 的 一 个 节点 ， 是 一 种 有 状态 的 节点 。Queue 主 要 包含 入 列 
(enqueue) 和 出 列 (dequeue) 两 个 操作 。enqueue 操 作 返 回 计 算 图 中 的 一 个 Operation 节 点 ， 
dequeue 操 作 返 回 一 个 Tensor 值 ， 需 要 放 在 Session 中 运行 才能 获得 真正 的 数值 。 

根据 实现 方式 的 不 同 ， 队 列 主要 实行 了 两 种 队列 方式 : 一 是 按 入 列 顺序 出 列 的 队列 
FIFOQueue; 二 是 按 随机 顺序 出 列 的 队列 RandomShuffleQueue。 

FIFOQueue 方 式 就 是 创建 一 个 先进 先 出 的 队列 ， 在 需要 读 入 的 训练 样本 有 序 时 使 用 ， 
例如 处 理 语 音 、 文 字样 本 时 。 

例如 ， 创 建 一 个 长 度 为 10 的 队列 ， 并 将 一 些 数 字 入 队 ， 然 后 逐一 出 队 ， 具 体 实现 
如 下 : 


01 import tensorflow as tf 

02 q= tf.FlFOQueue(10, "float") # 声 明 顺 序 队列 
03 init = q.enqueue_many(([1.0, 2.0, 3.0,4.0,5.0,6.0),)) # 入 队 

04 with tf.Session() as sess: 

05  sessrun(init) ## 运 行 入 队 操作 
06  quelen = sess.run(q.size()) 

07  foriin range(quelen): 

08 print ('q,sess.run(g.dequeue())) # 输 出 出 队 值 


运行 上 述 代 码 ， 就 能 看 到 有 序 的 输出 队列 ， 结 果 如 下 : 


RandomShuffleQueue 方 式 就 是 创建 一 个 随机 队列 ， 在 出 队列 时 以 随机 的 顺序 输出 元 
素 。 随 机 队列 在 需要 读 入 的 训练 样本 无 序 时 使 用 ， 例 如 ， 处 理 一 些 图 像样 本 时 。 

例如 ， 创 建 一 个 长 度 为 10 的 队列 ， 并 将 一 些 数 字 入 队 ， 然 后 逐一 出 队 ， 具 体 实现 
如 下 : 


01 import tensorflow as tf 

02 q-tf.RandomShuffleQueue(capacity-10, min. after dequeue-O,dtypes-"float") # 声 明 队 列 
03 init = q.enqueue many(([1.0, 2.0, 3.0,4.0,5.0,6.0],)) TAB 

04 with tf.Session() as sess: 

05  sess.run(init) ## 运 行 入 队 操 作 

06  quelen- sess.run(a.size()) 

07  foriinrange(quelen): 

08 print ('q,sess.run(q.dequeue())) # 输 出 出 队 值 
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其 中 ， 在 第 02 行 声明 了 一 个 队列 长 度 为 10、 出 队 后 最 小 长 度 为 0、 数 据 类 型 为 float 的 


随机 队列 。 运 行 上 述 代码 ， 就 能 看 到 输出 队列 的 结果 如 下 ; 


q1.0 
34.0 
86.0 
02.0 
q5.0 
q3.0 


在 随机 队列 中 ， 我 们 定义 了 队列 长 度 以 及 出 队 后 的 最 小 长 度 。 当 队列 长 度 等 于 最 小 值 
时 ， 不 再 执行 出 队 操作 ， 如 果 此 时 还 要 求 执行 出 队 操 作 ， 就 会 发 生 阻 断 ， 程 序 不 再 执行 。 


同 理 ， 当 队列 长 度 等 于 最 大 值 时 ， 还 要 求 执行 入 队 操作 也 会 发 生 阻 断 。 


对 于 一 个 队列 长 度 为 0、 出 队 后 最 小 长 度 为 2 的 队列 ， 仍 然 入 队 6 个 数 ， 出 队 6 次 ， 具 


体 实现 如 下 : 


01 import tensorflow as tf 


02 g-tf.RandomShuffleQueue(capacity-10, min. after. dequeue-2,dtypes-"float") # 声 明 队列 


03 init = q.enqueue_many(([1.0, 2.0, 3.0,4.0,5.0,6.0],)) 

04 run options-tf.RunOptions(timeout in ms-10000) # 定 义 10s 超 时 
05 with tf.Session() as sess: 

06  sess.un(init) 

07 quelen = sess.run(g.size()) 

08  foriinrange(quelen): 

09 try: 

10 print('q"""" sess.run(q.dequeue(),options-run options)) ”# 输 出 出 队 值 
11 except tf.errors.DeadlineExceededError: 

12 print('timeout") # 超 时 输出 
运行 上 述 代码 ， 就 能 看 到 输出 队列 的 结果 如 下 : 

q1.0 

q6.0 

q2.0 

q5.0 

timeout 

timeout 


QueueRunner 


QueueRunner 即 队列 管理 器 。 在 TensorFlow 运 行 时 ， 计 算 所 使 用 的 硬件 资源 ， 主 要 包 


括 CPU、GPU、 内 存 以 及 读 取 数 据 时 计算 机 使 用 的 其 他 硬件 资源 。 因 为 涉及 磁盘 操 f 


以 速度 远 低 于 前 者 。 因 此 ， 在 实际 操作 中 不 会 像 之 前 那样 在 主线 程 中 进行 入 队 操 作 ， 


通常 


会 使 用 多 个 线程 来 读 取 数 据 ， 然 后 使 用 一 个 线程 来 使 用 数据 。 使 用 队列 管理 器 可 管理 这 些 


读 写 队列 的 线程 。 


创建 QueueRunner 需 要 使 用 方法 tf.train.QueueRunner._init (queue, enqueue ops), H 


中 ，queue 代 表 指 定 的 队列 ，enqueue_ops 代 表 指 定 的 操作 ， 一 般 都 是 多 个 操作 ， 每 个 操作 


会 使 用 一 个 线程 。 
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声明 了 QueueRunner 列 队 管 理 器 后 ， 还 需要 创建 线程 来 具体 执行 队列 管理 操作 。 使 用 
方法 tf.train.QueueRunner.create_threads(sess, coord=None, daemon=False, start=False) 来 完成 
线程 的 创建 。 

例如 ， 创 建 一 个 队列 管理 器 ， 进 行 两 个 操作 。 一 个 操作 完成 计数 器 的 自 增 ， 另 一 个 操 
作 将 计数 器 的 值 入 队 。 我 们 通过 出 队 观察 入 队 的 数值 ， 具 体 实现 如 下 : 


01 import tensorflow as tf 
02 q= tf.FIFOQueue(10, "float") 


03 counter = tf. Variable(0.0) oH 

04 increment, op = tf.assign. add(counter, 1.0) # 给 计数 器 加 1 

05 enqueue_op = q.enqueue(counter) # 将 计数 器 加 入 队列 

06 # 创建 QueueRunner， 有 两 个 操作 
07 qr=tftrain.QueueRunner(q, enqueue_ops=[increment_op, enqueue_op]* 1) 

08 # 主 进程 


09 with tf.Session() as sess: 

10  sess.run(tf.global variables initializer()) 

11  qr.create threads(sess, start- True) # 启动 队列 管理 器 操作 

12 foriinrange(8): 

13 print (sess.run(q.dequeue())) 

运行 上 述 代码 ， 实 际 输出 如 下 : 

7.0 

12.0 

14.0 

22.0 

27.0 

32.0 

183.0 

185.0 

ERROR:TensorFlow:Exception in QueueRunner: Session has been closed. 

ERRORc:TensorFlow:Exception in QueueRunner: Session has been closed. 

Exception in thread QueueRunnerThread-fifo queue 2-fifo queue 2 enqueue: 

显然 ， 输 出 的 结果 并 非 自 然 数 列 。 这 是 因为 计数 器 自 增 操作 和 入 队 操作 在 不 同 线程 
且 不 同步 ， 可 能 计数 器 自 增 操作 执行 了 很 多 次 之 后 ， 才 进行 了 一 个 入 队 操作 。 

另 一 方面 ， 最 后 程序 报错 了 。 这 是 因为 主 程序 的 出 队 操 作 和 线程 中 的 入 队 操 作 是 异 
步 的 。 当 出 队 结 束 后 ， 主 程序 结束 ， 自 动 关闭 了 会 话 。 但 是 入 队 线 程 并 没有 结束 ， 所 以 
程序 报错 。 如 果 显 式 地 采用 sess.run() 和 sess.close() 方 法 ， 则 整个 程序 最 后 会 产生 阻 断 ， 
无 法 结束 。 


| 2.3.8| Coordinator 


在 前 面 中 使 用 QueueRunner 时 ， 由 于 入 队 和 出 队 由 各 自 的 线程 完成 ， 且 未 进行 同步 
通信 ， 因 此 导致 程序 无 法 正常 结束 。 为 了 实现 线程 间 的 同步 ， 使 用 Coordinator( 协 调 器 ) 
来 处 理 。 

在 使 用 QueueRunner.create _ threads() 创 建 线程 时 ， 指 定 一 个 协调 器 。 当 主线 程 完成 操 


IT 
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作 后 ， 使 用 Coordinatorrequest_stop() 方 法 ， 通 知 所 有 的 线程 停止 当前 线程 ， 并 等 待 其 他 线 
程 结束 后 返回 结果 。 
下 面 对 2.3.7 节 中 的 QueueRunner 示 例 进行 重 构 ， 加 入 协调 器 。 具 体 实现 如 下 : 


01 import tensorflow as tf 
02 q= t. FlFOQueue(10, "float") 


03 counter = tf. Variable(0.0) LE 

04 increment. op = tf.assign. add(counter, 1.0) # 给 计数 器 加 1 

05 enqueue op = q.enqueue(counter) # 将 计数 器 加 入 队列 
06 coord-tf.train.Coordinator() # 定 义 协调 器 

07 qr=tftrain.QueueRunner(q, enqueue_ops=[increment_op, enqueue. op] * 1) 

08 # 主 线程 


09 with tf.Session() as sess: 
10 sess.run(tf.global_variables_initializer()) 
11 #qr.create_threads(sess, start=True) 


12 queue thread-qr.create threads(sess,coord-coord,start- True) # 指 定 协调 器 
13  foriin range(8): 

14 print (sess.run(q.dequeue())) 

15  coord.request stop() 共通 知 线程 关闭 
16  coord.join(queue thread) # 等 待 线程 结束 


与 2.3.7 节 的 代码 进行 对 比 ， 我 们 注释 掉 第 11 行 的 原 有 队列 管理 器 创建 语句 。 修 改 为 第 
12 行 的 队列 管理 器 语句 ， 指 定 对 应 的 线程 协调 器 。 

对 于 线程 的 协调 ， 使 用 coord 进 行 。 如 第 15 行 ， 通 知 其 他 线程 关闭 ， 第 16 行 ， 等 待 其 
他 线程 结束 。 

运行 上 述 代 码 ， 实 际 输出 如 下 : 


通过 这 样 的 实现 ， 在 主 进程 结束 后 ， 其 他 线程 也 可 以 相应 地 结束 ， 不 会 再 出 现 会 话 已 
结束 的 程序 错误 。 


M24, 第 一 个 TensorFlow 示 例 M 


前 面 介绍 了 TensorFlow 的 系统 框架 和 特点 ， 下 面 通过 一 个 简单 的 程序 来 直观 感受 
TensorFlow 的 编写 和 运行 。 
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2.4.1 526 


前 面 章节 中 介绍 了 一 些 最 基础 的 TensorFlow 程 序 ， 但 是 TensorFlow 本 身 被 设计 用 于 分 
析 大 量 的 数据 ， 极 少 用 于 常数 的 计算 。 一 个 典型 的 TensorFlow 程 序 需要 进行 的 步骤 可 以 分 
为 以 下 四 步 : 加 载 训练 数据 、 构 建 训练 模型 、 进 行 数据 训练 、 评 估 和 预测 。 
对 于 这 四 大 步 又， 在 TensorFlow 的 具体 编程 过 程 中 可 以 细 分 为 如 下 流程 。 

1. 加 载 训练 数据 

数据 是 机 器 学 习 处 理 的 对 象 ， 加 载 训练 数据 是 机 器 学 习 的 第 一 步 ， 可 以 细 分 为 如 下 

(1) 生成 或 导入 样本 数据 集 

所 有 的 机 器 学 习 都 是 对 数据 的 处 理 ， 依 赖 于 样本 数据 集 。 

(2) 归 一 化 数据 

导入 的 样本 数据 各 种 各 样 ， 一 般 来 说 都 不 符合 TensorFlow 希 望 处 理 的 数据 样式 ， 所 以 
需要 转换 数据 格式 以 满足 TensorFlow。 大 部 分 机 器 学 习 算 法 希望 的 输入 样本 数据 是 归 一 化 
数据 。 在 TensorFlow 中 有 对 应 的 归 一 化 数据 处 理 函 数 ， 例 如 : 


data= tf.nn.batch_norm_with_global_normalization() 


(3) 划分 样本 数据 集 为 训练 样本 集 和 测试 样本 集 

训练 样本 集 用 于 机 器 学 习 过 程 中 的 模型 训练 ， 测 试 样本 集 用 于 对 构建 的 机 器 学 习 模型 
进行 测试 。 一 般 来 说 ， 这 两 个 数据 集 包含 不 同 的 数据 。 

2. 构建 训练 模型 

构建 训练 模型 是 指 构建 TensorFlow 中 图 的 过 程 ， 涉 及 图 中 使 用 的 所 有 变量 以 及 运算 规 
则 ， 可 以 细 分 为 如 下 流程 。 

(1) 初始 化 超 参 数 

在 机 器 学 习 中 经 常 要 有 一 系列 的 常量 参数 ， 例 如 学 习 率 、 和 迭代 次 数 或 者 其 他 固定 参数 ， 
我 们 称 之 为 超 参数 。 一 般 情况 下 ， 我 们 会 一 次 性 初始 化 所 有 的 机 器 学 习 参 数 ， 例 如 : 


01 learning_rate=0.001 # 学 习 率 
02 training_epochs=1000 者 | 练 次 数 
(2) 初始 化 变量 和 占 位 符 


机 器 学 习 的 过 程 就 是 根据 样本 数据 集 不 断 优化 权重 值 的 过 程 。TensorFlow 通 过 占 位 符 
设置 数据 节点 ， 并 在 训练 过 程 中 调整 这 些 变量 的 值 。 
TensorFlow 中 有 常量 节点 、 变 量 节点 和 占 位 符 等 ， 例 如 : 


01 a=tf.constant(3、 tf.float32) # 常 量 节点 
02 b = tf.placeholder(tf.float32) # 占 位 符 
03 c= tf.Variable(0.0) # 变 量 节 点 
(3) 定义 模型 结构 


定义 模型 结构 主要 是 针对 数据 设计 或 使 用 不 同 的 机 器 学 习 算法 ， 这 部 分 也 是 我 们 后 续 
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解 的 重点 ， 例 如 线性 模型 ; 

y = tf.matmul((W. x data) + b 

(4) 定义 损失 函数 

损失 函数 指定 预测 值 与 实际 值 之 间 的 差距 。 损 失 函 数 可 以 是 TensorFlow 实 现 的 常见 损 
RRA, duuIUJEBÉ E XUDES AE. T6 DLISHPLA ER UR Sigmoid Az XU. Softmax^z E, 
例如 线性 模型 中 自 定义 的 损失 函数 : 


loss = tf.reduce mean(tf.square(y - y_data)) # 损 失 函 数 


3. 进行 数据 训练 

TensorFlow 中 的 数据 训练 是 指使 用 训练 集中 的 数据 ， 对 设计 的 模型 图 进行 计算 的 过 
程 ， 可 以 细 化 为 以 下 流程 。 

(D 初始 化 模型 

初始 化 模型 主要 完成 对 计算 图 的 运算 环境 的 初始 化 ， 包 括 创建 计算 图 实例 、 对 占 位 符 
等 进行 赋值 ， 例 如 : 


g 


01 init =tf.global_variables_initializer() # 初始 化 所 有 变量 
02 with tf.Session() as sess: 
03  sess.un(init) # 变 量 初始 化 


(2) 加 载 数 据 并 进行 训练 

训练 的 过 程 就 是 从 样本 数据 中 提取 数据 并 在 计算 图 中 计算 的 过 程 ， 例 如 : 

01 feed= (xxx s. y_:y_s} 

02 for i in range(steps): 

O3 sess.un(train step. feed dict-feed) 

4. 评估 和 预测 

评估 和 预测 是 对 机 器 学 习 模型 学 习 效果 的 评价 。 一 般 通 过 对 训练 样本 集 和 测试 样本 集 
的 评估 ， 确 定 学 习 模型 是 过 拟 合 还 是 欠 拟 合 ， 调 优 后 进行 发 布 和 预测 新 的 未 知 数据 ， 可 以 
细 化 为 以 下 流程 。 

(1) 评估 机 器 学 习 模型 

对 机 器 学 习 模型 的 评估 主要 有 平均 准确 率 、 识 别 的 时 间 和 1loss 下 降 变化 等 指标 。 

(2) 调 优 超 参数 

大 部 分 时 候 ， 我 们 会 不 断 调整 机 器 学 习 模型 的 超 参数 来 重复 训练 模型 ， 以 获得 效果 最 
佳 的 学 习 模 型 。 

(3) 预测 结果 

机 器 学 习 模型 的 最 终 目的 是 预测 新 的 未 知 数据 的 结果 。 

在 后 面 的 章节 中 ， 将 针对 这 些 过 程 进 行 讲解 ， 构 建 自己 的 机 器 学 习 模型 。 
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| 2.4.2| 运行 TensorFlow 示 例 


前 面 我 们 讲解 了 一 个 典型 应 用 所 要 进行 的 步骤 ， 接 下 来 运行 TensorFlow 官 方 提供 的 
个 示例 。TensorFlow 示 例 代码 同样 在 GitHub 中 进行 了 开源 ，TensorFlow 1.3 及 之 前 的 版 本 都 
存放 在 tensorflow 目 录 的 examples 子 目录 中 ，1.4 及 之 后 的 版 本 就 存放 在 单独 的 目录 中 '。 我 
们 下 载 了 与 TensorFlow 版 本 一 致 的 示例 代码 版 本 。 

在 官方 示例 代码 中 ， 有 一 个 对 MNIST 数 据 集 进 行 处 理 的 示例 。MNIST 是 一 个 入 门 级 
的 计算 机 视觉 数据 集 ， 它 包含 各 种 手写 数字 图 片 ， 由 美国 国家 标准 与 技术 研究 所 (National 
Institute of Standards and Technology，NIST) 提 供 ， 其 训练 集 由 250 个 不 同人 手写 的 数字 构 
成 ， 其 中 50% 是 高 中 学 生 ，50% 是 人 口 普查 局 的 工作 人 员 。 

下 面 以 1.4 版 本 的 TensorFlow 为 例 ， 讲 解 如 何 运行 MINST 的 官方 示例 代码 。 

将 下 载 的 models 文 件 解压 ， 在 其 officialmnist 目 录 下 就 是 我 们 需要 运行 的 代码 。 使 用 
Spyder 打 开 目 录 中 的 mnistpy 文 件 。 

直接 运行 该 文件 ， 会 直接 链接 到 https://storage.googleapis.com/cvdf-datasets/mnist/ 以 
下 载运 行 所 需 的 数据 集 。 如 果 无 法 正常 下 载 ， 可 以 手动 链接 到 http://yann.lecun.com/exdb/ 
mnist/， 下 载 以 下 四 个 文件 : 

t10k-images-idx3-ubyte.gz 

t10k-labels-idx1-ubyte.gz 

train-images-idx3-ubyte.gz 

train-labels-idx1-ubyte.gz 

对 于 mnist.py 文 件 也 需要 做 相应 的 修改 。 一 方面 将 数据 来 源 修 改 为 下 载 后 保存 到 本 
地 的 地 址 ， 例 如 C:\mnist_data。 另 一 方面 ， 由 于 TensorFlow 的 可 视 化 工具 TensorBoard 在 
Windows 系 统 下 有 错误 ， 因 此 只 能 正确 读 取 C 盘 下 的 可 视 化 文件 ， 将 过 程 记录 文件 也 存储 
在 C 盘 中 ， 例 如 C:\log\mnist_model。 对 mnist.py 的 具体 修改 如 下 : 


01 parser.add_argument( 
02  '--deta dir. 


O3  typezsstr. 
O4  sdefault-'/tmp/mnist data', # 原 数据 地 址 ， 注 释 
05  default-'C:mnist data', 共和 汞 加 本 地 数据 源 


06  help-'Path to directory containing the MNIST dataset") 
07 parser.add argument( 
08  '--model dir、 


09  type-str. 
10  sdefault-'/tmp/mnist model'. # 原 记录 数据 存放 位 置 ， 注 释 
11 default='C:\log\mnist_mode!', # 修 改 记录 数据 存放 位 置 


12  help-'The directory where the model will be stored.") 
直接 运行 该 文件 ， 运 行 过 程 如 图 2.7 所 示 。 


1 ” 源 代码 地 址 为 https://github.com/TensorFlow/models。 


In [1]: runfile('D:/'t& /notes/2018tensorflowllz3 52] /models-1.4.0/official/mnist/mnist.py', 
wdir-'D:/& /notes/2018tensorflowll|z3 55] /models-1.4.0/official/mnist') 
INFO:tensorflow:Using default config. 

INFO:tensorflow:Using config: (' model dir': '/tmp/mnist model', ' tf random seed': None, 

' save summary steps': 100, ' save checkpoints steps': None, ' save checkpoints secs': 600, 
' session config': None, ' keep checkpoint max': 5, ' keep checkpoint every n hours': 10000, 
' log step count steps': 100, ' service': None, ' cluster spec': 
«tensorflow.python.training.server lib.ClusterSpec object at 0x0000000013202E48», ' task type': 
'worker', ' task id': 0, ' master > ' is chief': True, ' num ps replicas': 6, 

' num worker replicas': 1) 

download filepath is Xs C: Wmnist dataWMtrain-images-idx3-ubyte 

download filepath is Xs C: Wmnist dataWXtrain-labels-idx1-ubyte 

INFO:tensorflow:Create CheckpointSaverHook. 

INFO:tensorflow:Saving checkpoints for 1 into /tmp/mnist modelWmodel.ckpt. 
INFO:tensorflow:train accuracy - 0.08 

INFO:tensorflow:loss - 2.3133812, step - 1 

INFO:tensorflow:global step/sec: 4.72161 

INFO:tensorflow:train accuracy - 0.485 (21.179 sec) 

INFO:tensorflow:loss - 0.32802442, step - 101 (21.178 sec) 

INFO:tensorflow:global step/sec: 4.86188 

INFO:tensorflow:train accuracy = 0.63666666 (20.569 sec) 

INFO:tensorflow:loss - 0.216316, step - 201 (20.568 sec) 


图 2.7 MNIST 运 行 过 程 
在 后 续 章 节 中 将 逐步 讲解 具体 的 代码 实现 。 
为 了 更 直观 地 看 到 TensorFlow 的 继续 学 习 过 程 ，TensorFlow 自 带 了 TensorBoard 这 一 强 
大 的 可 视 化 工具 。 针 对 该 例 ， 我 们 使 用 TensorBoard 查 看 效果 。 
在 Anaconda Prompt 中 启用 TensorBoard， 输 入 相应 的 命令 ， 具 体 如 下 : 


01 activate tensorfiowCpu # 启 用 tensorflow 沙 箱 环境 
02 tensorboard —-logdir C:ogYmnist model # 可 视 化 训练 过 程 


执行 该 命令 后 ， 就 会 出 现 正常 启动 的 提醒 信息 ， 如 下 所 示 : 


TensorBoard 0.4.0 at http:WUSER-20151007LN:6006 (Press Ctrl+C to quit) 


在 浏览 器 中 访问 本 地 计算 机 的 6006 端 口 ， 例 如 http://USER-20151007LN:6006， 就 能 成 
功 打开 TensorBoard 界 面 ， 如 图 2.8 所 示 。 
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图 2.8 TensorBoard 界 面 
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| XJ TensorBoard 可 视 化 v 


TensorBoard 是 TensorFlow 自 带 的 一 个 强大 的 可 视 化 工具 。 在 TensorFlow 的 代码 实现 
中 ， 只 要 将 所 需 保存 的 数据 放置 到 summary operations 中 ， 并 运行 所 有 的 summary 节 点 ， 最 
后 将 输出 的 数据 都 保存 到 本 地 磁盘 中 ， 就 可 以 使 用 TensorBoard 进 行 可 视 化 查看 。 详 细 的 
实现 过 程 将 在 后 续 章节 中 讲解 。 

2.4 节 讲解 了 TensorBoard 的 启动 ， 本 节 将 详细 讲解 TensorBoard 的 可 视 化 功能 。 
TensorBoard 中 自 带 了 8 种 可 视 化 : SCALARS, GRAPHS, IMAGES, AUDIO, 
DISTRIBUTIONS、HISTOGRAMS、PROJECTOR 和 TEXT。 

口 SCALARS( 标 量 ) 

展示 训练 过 程 中 准备 率 、 损 失 值 、 权 重 、 偏 差 值 等 的 变化 情况 。 

口 GRAPHS( 计 算 图 ) 

展示 训练 过 程 中 的 计算 数据 流 图 ， 可 以 展示 每 个 节点 的 计算 关系 以 及 各 个 设备 上 消耗 
的 内 存 和 时 间 等 。 

口 IMAGES( 图 片 ) 

展示 训练 过 程 中 记录 的 图 片 。 

口 AUDIO( 音 频 ) 

展示 训练 过 程 中 的 音频 。 

口 DISTRIBUTIONS( 数 据 分 布 图 ) 

展示 训练 过 程 中 记录 的 数据 的 分 布 图 。 

口 HISTOGRAMS( 直 方 图 ) 

展示 训练 过 程 中 记录 的 数据 的 直方 图 。 

口 PROJECTOR( 投 影 分 布 ) 

之 前 的 版 本 为 Embeddings。 展 示 训练 过 程 中 数据 的 投影 分 布 ， 用 于 在 二 维 或 三 维 空间 
对 高 维 数据 进行 探索 。 

口 TEXT( 文 本 ) 

新 增加 的 功能 ， 显 示 保 存 的 一 小 段 文本 。 


[2.5.1] SCALARS 面 板 


打开 TensorBoard 时 默认 直接 进入 SCALARS 面 板 ， 并 且 默 认 使 用 .* 正则 表达 式 显示 
所 有 图 像 。 在 面板 的 项 部 导航 栏 中 只 展示 能 够 可 视 化 展示 的 模块 ， 其 他 模块 则 会 收 起 到 
INACTIVE 中 ， 如 图 2.9 所 示 。 
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图 2.9 SCALARS 面 板 


SCALARS 面 板 的 左边 有 对 应 的 处 理 选项 。 

口 Show data download links: 显示 数据 的 下 载 链接 。 可 以 把 TensorBoard 绘 图 用 的 
数据 下 载 下 来 ， 单 击 后 在 图 的 右 下 角 可 以 看 到 下 载 链接 ， 下 载 格式 支持 CSV 和 
JSON。 

Cj Ignore outliers in chart scaling: 是 否 排除 异常 点 ， 默 认为 选中 状态 。 

口 Tooltip sorting method: 用 于 显示 每 个 run 对 应 点 的 值 的 显示 顺序 ， 有 default、 
descending( 降 序 )、ascending( 升 序 ) 和 nearest 四 个 选项 。 

O Smoothing: 绘图 时 曲线 的 平滑 程度 ，0 表 示 不 平滑 处 理 ，1 表 示 最 平滑 ， 默 认 值 是 
0.6。 一 般 采 用 默认 值 。 如 果 不 进 行 平 滑 处 理 ， 有 些 曲线 波动 很 大 ， 难 以 看 出 趋势 。 

O Horizontal Axis: 绘图 时 横 轴 的 设置 ， 有 STEP、RELATIVE 和 WALL 三 种 设置 。 其 
中 STEP 是 默认 选项 ， 指 横 轴 显示 的 是 训练 迭代 次 数 ， RELATIVE 指 相对 时 间 ， 相 
对 于 训练 开始 的 时 间 ， 也 就 是 训练 用 时 ，WALL 指 训练 的 绝对 时 间 。 

口 Runs: 列 出 记录 的 不 同 ran， 可 以 选择 只 显示 某 个 或 某 几 个 。 

SCALARS 面 板 中 右边 的 绘图 显示 了 各 个 单个 值 的 变化 趋势 。 每 张 图 的 左下 角 都 有 三 


个 小 图 标 : 第 一 个 表示 查看 大 图 ， 第 二 个 表示 是 否 对 y 轴 对 数 化 ， 第 三 个 表示 如 果 拖 动 或 
缩放 坐标 轴 ， 就 会 重新 回 到 原始 位 置 。 如 果 图 中 的 某 一 段 需 要 放大 查看 ， 可 以 用 鼠标 框 选 


以 进 


LE 行 放大 处 理 。 


BA GRAPHS 面 板 


GRAPHS 面 板 是 理解 模型 逻辑 最 常用 的 面板 。 在 机 器 学 习 的 神经 网 络 模型 很 复杂 且 包 
含 很 多 层 时 ， 该 面板 能 展示 出 你 所 构建 的 网 络 整体 结构 ， 显 示 数 据 流 的 方向 和 大 小 ， 也 可 


以 显示 训练 时 每 个 节点 的 用 时 、 耗 费 的 内 存 大 小 以 及 参数 ， 如 图 2.10 所 示 。 
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0000  B210 GRAPHS 
GRAPHS 面 板 分 为 左 侧 功能 区 和 右 侧 显示 图 区 。 
其 中 ， 左 侧 功能 区 中 对 应 的 处 理 选 项 如 下 。 
口 Fitto screen: 将 图 缩放 直至 适合 屏幕 。 
口 Download PNG: 将 图 保存 到 本 地 。 
口 Run: 显示 不 同 训练 过 程 的 结果 。 
口 
B 


Session runs: 显示 不 同 迭 代步 数 时 的 结果 。 
Color: 对 数据 流 图 进行 不 同方 式 的 着 色 。Structure 为 默认 方式 ， 指 对 整个 数据 流 
图 的 结构 着 色 ; Device 指 训练 过 程 中 使 用 不 同 设备 进行 着 色 ; Compute time 指 显 
示 节 点 的 计算 时 间 ; Memory 指 显示 节点 的 内 存 消耗 。 
O Graph: 针对 右 侧 显 示 图 区 中 各 类 图 示 的 说 明 。 
右 侧 显示 图 区 是 我 们 分 析 的 重点 ， 默 认 显 示 的 图 分 为 两 部 分 : 主 图 (Main Graph) 和 畏 
助 节点 (Auxiliary Node)。 其 中 ， 主 图 显示 的 是 网 络 结构 ， 辅 助 节点 显示 的 是 初始 化 、 训 练 
和 保存 节点 等 。 
对 于 图 中 的 节点 ， 可 以 平移 、 缩 放 、 拖 动 、 自 动 平移 到 节点 位 置 。 单 击 节点 后 ， 会 在 
右上 角 的 卡片 中 显示 详情 ， 包 括 节 点 的 输入 、 输 出 和 参数 等 ， 如 图 2.11 所 示 。 双 击 某 个 节 
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点 或 者 单 击 节点 右上 角 的 + 可 以 展 


开 查 看 其 中 的 情况 ， 也 可 以 对 齐 进行 缩放 。 
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图 2.11 conv2d 界 面 


图 中 节点 之 间 的 连 线 表 示 节 点 之 间 的 依赖 关系 ， 分 为 两 种 链接 方式 ， 第 一 种 是 数据 
依赖 (data dependency)， 在 图 中 使 用 实心 箭头 (solid arrow) 表 示 两 个 张 量 直 接 的 操作 ， 连 
线 越 粗 ， 说 明 两 个 节点 之 间 流 动 的 张 量 越 多 ， 另 一 种 是 控制 依赖 (control dependency)， 在 
图 中 使 用 点 线 箭头 (dotted line) 表 示 。 


IMAGES 面 板 


IMAGES 面 板 展示 的 是 训练 数据 集 和 测试 数据 集 经 过 预 处 理 后 图 片 的 样子 ， 如 图 2.12 


所 示 。 


Runs 

wr tern 
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| input reshape/input/image/0 


test 
step 990 (Fri Dec 01 2017 21:51:46 GMT+0800) 


图 2.12 IMAGES iA 
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[2.5.4| AUDIO 面 板 


AUDIO 面 板 展示 的 是 训练 数据 集 和 测试 数据 集 经 过 预 处 理 后 的 音频 数据 。 
EE] DISTRIBUTIONS 面 板 


DISTRIBUTIONS 面 板 用 平面 方式 表示 特定 层 在 激活 前 后 、 权 重 和 偏 置 的 数据 分 布 ， 
如 图 2.13 所 示 。 
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Æ2.13 DISTRIBUTIONS 面板 


BJJ HISTOGRAMS 面 板 


HISTOGRAMS 面 板 用 立体 的 方式 表示 特定 层 在 激活 函数 前 后 、 权 重 和 偏 置 的 数据 分 
布 ， 如 图 2.14 所 示 。 
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图 2.14 HISTOGRAMS id 
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EE] PROJECTORS 


PROJECTOR 面 板 表示 数据 的 投影 分 布 ， 用 于 在 二 维 或 三 维 空间 对 高 维 数据 进行 探 
索 ， 如 图 2.15 所 示 。 
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图 2.15 PROJECTOR 面 板 


该 面板 分 为 左 侧 、 中 间 、 右 侧 三 部 分 ， 其 中 左 侧 是 功能 区 、 中 间 为 显示 区 、 右 侧 为 数 
据 第 选区 。 该 面板 左 侧 的 对 应 处 理 选项 如 下 。 

口 选择 降 维 方式 ， 有 T-SNE、PCA 和 CUSTOM 三 种 降 维 方 式 。 

O 图 像 显示 方式 ; 可 以 在 二 维和 三 维 间 切 换 。 

O Perplexity: 困惑 度 。 手 动 调整 相关 参数 ， 比 较 不 同 的 概率 分 布 或 概率 模型 。 

O Learningrate: 学 习 率 。 手 动 调整 相关 参数 ， 分 析 学 习 过 程 。 

在 该 面板 的 右 侧 可 以 采用 正则 表达 式 来 匹配 相关 数据 ， 直 观 地 查看 各 个 数据 之 间 的 距 
离 关 系 。 


III NENNEN 1 


本 章 主要 讲解 了 TensorFlow 的 基础 知识 ， 包 括 基础 框架 、 编 程 模型 和 基本 概念 ， 虽 在 
让 读者 理解 TensorFlow 先 构建 计算 机 再 进行 实际 运算 的 符号 式 编程 特性 ， 并 通过 运行 示例 
直观 感受 TensorFlow 的 编号、 运行 和 可 视 化 。 


第 3 章 


TensorFlow 进 阶 


前 面 介绍 了 TensorFlow 机 器 学 习 的 基 
础 知识 ， 也 提 到 了 TensorFlow 的 典型 应 用 
需要 经 历 加 载 训练 数据 、 构 建 训 练 模型 、 
进行 数据 训练 、 评 估 和 预测 四 步 。 本 章 将 
针对 这 四 大 步骤 进行 介绍 。 


iren 
| EXT 加 载 数 据 A 
v 


在 TensorFlow 中 加 载 数 据 的 方式 一 共有 三 种 ， 预 加 载 数据 、 填 充 数据 以 及 从 CSV 文 件 
读 取 数据 。 


EXEI 预 加 载 数据 


预 加 载 数 据 就 是 在 TensorFlow 图 中 定义 常量 或 变量 来 保存 所 有 数据 ， 例 如 : 


01 a=tf.constant([1,2]) 
02 b=tf.constant([3,4]) 
03 y=tf.add(a,b) 


因为 常量 会 直接 存储 在 数据 流 图 的 数据 结构 中 ， 所 以 在 训练 过 程 中 这 个 结构 体 可 能 会 
被 复制 多 次 ， 从 而 导致 消耗 大 量 内 存 。 


EXE] ss 


TensorFlow 提 供 的 数据 填充 机 制 允许 在 TensorFlow 的 计算 图 训练 过 程 中 ， 将 数据 填充 
到 任意 张 量 中 。 可 通过 会 话 的 run0 函 数 中 的 feed _dict 参 数 获 取 数据 ， 例 如 : 


01 x-tf.placeholder(tf.float32) # 声 明 占 位 符 
02 y-tf.placeholder(tf.float32) 
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03 z-tf.add(x,y) 

04 x_data=[1.0,2.0] 
05 y_data=[10.0,11 
06 init op = tf.global 


# 生 成 数据 
.0] 
| variables initializer() 


07 sess - tf.Session() 


08 with tf.Session() 


as sess: 


09 print(sess.run( [z]feed dict-px:x data,y:y data) )) # 获 取 数 据 进 行 计算 
当 数 据 量 大 时 ， 填 充 数据 的 方式 也 存在 消耗 内 存 的 缺点 。 


EZE CSV 文 件 读 取 数据 


TensorFlow 从 文件 中 读 取 数 据 的 方式 主要 有 两 种 ， 一 种 是 直接 从 原始 文件 中 


ph 读 取 数 


据 ， 另 一 种 是 将 原始 文件 格式 转换 为 TensorFlow 定 义 的 TFRecords 格 式 后 再 进行 读 取 。 
TensorFlow 提 供 了 如 下 对 应 方法 。 
O class tf.TextLineReader: 读 取 文 件 中 的 一 行文 本 ， 返 回 两 个 Tensor 对 象 ， 如 


(key,value)。 


O class tf.WholeFileReader: 读 取 整个 文件 ， 返 回 两 个 值 ， 分 别 是 文件 名 称 和 文件 


内 容 。 


O class tf.IdentityReader: 以 key 和 value 的 形式 输出 一 个 work 队 列 。 
O classtf.FixedLengthRecordReader: 从 二 进 制 文 件 中 读 取 固定 长 度 的 记录 。 
O class tf.TFRecordReader: 读 取 TFRecords 格 式 的 文件 。 


对 于 从 文件 中 读 取 数据 ， 首 先 使 用 读 取 器 将 数据 读 取 到 队列 中 ， 然 后 从 队列 


获取 数 


据 并 进行 处 理 。 下 面 以 读 取 CSV 格 式 的 文件 来 讲解 TensorFlow 从 源 文件 中 直接 读 取 数 据 的 


有 具体 过 程 。 
1. 创建 队列 


TensorFlow 提 供 了 队列 的 创建 方法 : 


tf.train.string input producer(string tensor, num_epochs=None, shuffle=True, seed-None, 
capacity-32, name-None) . 


其 中 ，string_ tensor 是 读 取 的 文件 名 列表 ，num_epochs 是 文件 的 训练 次 数 ，shuffle 表 示 
是 否 对 文件 进行 乱 序 处 理 。 需 要 注意 的 是 ， 返 回 队列 的 队列 管理 器 与 文件 读 取 器 的 线程 是 


分 开 的 。 


从 airline.csv 文 件 中 读 取 数 据 ， 创 建 队列 的 具体 实现 如 下 : 


01 import tensorflow as tf 
02 file name string-"airline.csv" # 要 读 取 的 CSV 格 式 的 文件 名 


03 filename queue 


- tf.train.string input producer([fle name. string]) # 创 建 队列 


2. 创建 读 取 器 获取 数据 
在 TensorFlow 中 ， 针 对 不 同 的 文件 格式 ， 提 供 了 不 同 的 文件 读 取 器 。 在 文件 读 取 器 中 


提供 了 read0) 方 法 ， 上 
TensorFlow 的 解析 。 


于 获取 文件 内 容 和 文件 的 表征 值 key， 从 而 将 内 容 转 换 为 张 量 ，| 


WP 


例如 在 图 3.1 中 ，airline.csv 文 件 中 的 每 行 数据 都 包含 6 个 浮 点 数据 。 


1948. 000008, 1. 213999987, 0. 243000001, 0. 145400003, 1. 414999962, 0. 611999989 
1949. 000008, 1. 353999972, 0. 25999999, 0. 218099996, 1. 383999944, 0. 559000015 
1950, 1. 569000006, 0. 277999997, 0. 315699995, 1. 388000011, 0. 573000014 

1951, 1. 947999954, 0. 296999991, 0. 393999994, 1. 549999952, 0. 56400001 

1952, 2. 265000105, 0. 310000002, 0. 35589999, 1. 802000046, 0. 574000001 

1953, 2. 730999947, 0. 321999997, 0. 359299988, 1. 925999999, 0. 711000025 

1954, 3. 025000095, 0. 335000008, 0. 402500004, 1. 963999987, 0. 776000023 

1955, 3. 562000036, 0. 349999994, 0. 396100014, 2. 115999937, 0. 827000022 

1956, 3. 979000092, 0. 361000001, 0. 382200003, 2. 434999943, 0. 800000012 

1957. 000364, 4. 420000076, 0. 379000008, 0. 304500014, 2. 707000017, 0. 921000004 
1958. 000968, 4. 563000202, 0. 391000003, 0. 328399986, 2. 10600009, 1. 067000031 
1959. 000961, 5. 385000229, 0. 425999999, 0. 385600001, 2. 845999956, 1. 082999945 
1960, 5. 553999901, 0. 441000015, 0. 319299996, 3. 088999987, 1. 480999947 

1961, 5. 465000153, 0. 460000008, 0. 307900012, 3. 121999979, 1. 735999942 

1962, 5. 824999809, 0. 485000014, 0. 378300011, 3. 184000015, 1. 925999999 

1963, 6. 875999928, 0. 505999982, 0. 418000013, 3. 263000011, 2. 040999889 

1964, 7. 822999954, 0. 537999988, 0. 516300023, 3. 411999941, 1. 996999979 

1965, 9. 119999886, 0. 56400001, 0. 587899983, 3. 622999907, 2. 256999969 

1966. 000826, 10. 51200008, 0. 586000025, 0. 536899984, 4. 073999882, 2. 142000103 
1967. 000017, 13. 02000046, 0. 621999979, 0. 444299996, 4. 710000038, 3. 563999891 
1968. 000962, 15. 26099968, 0. 666000009, 0. 305200011, 5. 217000008, 4. 767000198 
1969. 000236, 16. 312999753, 0. 731000006, 0. 233199999, 5. 568999767, 6. 511000156 


图 3.1 airline.csv 文 件 


对 于 该 文件 中 数据 的 读 取 ， 分 为 创建 读 取 器 、 获 取 数 据 和 解析 数据 三 个 步 又 。 

对 于 CSV 文 件 中 数据 的 读 取 ， 使 用 TextLineReader 来 创建 读 取 器 。 

使 用 读 取 器 的 read() 方 法 来 获取 数据 。 

对 于 数据 的 解析 ， 需 要 根据 读 取 的 CSV 文 件 的 数据 格式 和 数据 类 型 来 定义 格式 。 然 后 
使 用 decode_csv() 方 法 来 解析 内 容 。 具 体 实现 如 下 : 


01 reader = tf. TextLineReader() # 每 次 一 行 
02 key,value = reader.read(filename queue) # 获 取 数 据 
03 record defaults = [[1.0],[1.0], [1.0], [1.0], [1.0], [1.0]] # 定 义 数据 形式 


04 col1, col2, col3, col4, col5, col6 = tf.decode csv(value, record_defaults=record_defaults) 

其 中 ， 第 03 行 根据 读 取 文 件 的 数据 类 型 构造 对 应 的 数据 类 型 ， 而 且 必 须 是 list 形 式 。 

第 04 行 将 每 一 行 读 取 的 内 容 (value) 按 照 数 据 类 型 (record_defaults) 解 析 到 张 量 col1、 
col2、col3、col4、col5 和 col6 中 。 

3. 处 理 数据 

在 此 对 获取 的 数据 进行 打印 输出 。 需 要 注意 的 是 ， 由 于 队列 管理 器 与 文件 阅读 器 的 
线程 是 相互 独立 的 ， 因 此 需要 先 启用 队列 ， 再 使 用 线程 协调 器 来 管理 这 两 个 线程 。 具 体 
实现 如 下 : 


01 with tf.Session() as sess: 


02 。 # 线 程 协 调 器 
03 coord = tf.train.Coordinator() 
04 ”# 启 动 线程 


05 threads = tf.train.start queue runners(coord-coord) 

06 is_second_read=0 

07  line1 name-bytes(96s:1' % file_name_string, encoding='utf8) 

08  print(line1 name) 

09 while True: 

10 #x1 是 第 一 个 数据 ，x2 是 第 二 个 数据 ，line_label 中 保存 当前 读 取 的 行 号 
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11 X1,X2,X3,x4,x5,x6,line label = sess.run([col1, col2, col3, col4, col5, col6,key]) 
12 # 若 当前 line_label 第 二 次 等 于 line1_name， 则 说 明 读 取 完 ， 跳 出 循环 

13 ifis second read--0 and line label--line1 name: 

14 is second read-1 

15 elifis second read--1 and line label--line1 name: 

16 break 

17 print ( x1,x2,x3,x4,x5,x6 ,line_label) 

18 . coord.request stop() 

19  coord.join(threads) # 人 循环 结束 后 ， 请 求 关闭 所 有 线程 

运行 上 述 代码 ， 结 果 如 图 3.2 所 示 。 


b'airline.csv:1' 
1948.0 1.214 0.243 0.1454 1.415 0.612 b'airline.csv:1' 
1949.0 1.354 0.26 0.2181 1.384 0.559 b'airline.csv:2" 
1950.0 1.569 0.278 0.3157 1.388 0.573 b'airline.csv:3' 
1951.0 1.948 0.297 0.394 1.55 0.564 b'airline.csv:4' 
1952.0 2.265 0.31 0.3559 1.802 0.574 b'airline.csv:5' 
1953.0 2.731 0.322 0.3593 1.926 0.711 b'airline.csv:6" 
1954.0 3.025 0.335 0.4025 1.964 0.776 b'airline.csv:7' 
1955.0 3.562 0.35 0.3961 2.116 0.827 b'airline.csv:8" 
1956.0 3.979 0.361 0.3822 2.435 0.8 b'airline.csv:9" 
1957.0 4.42 0.379 0.3045 2.707 0.921 b'airline.csv:10 
1958.0 4.563 0.391 0.3284 2.706 1.067 b'airline.csv:11' 
1959.0 5.385 0.426 0.3856 2.846 1.083 b'airline.csv:12" 
1960.0 5.554 0.441 0.3193 3.089 1.481 b'airline.csv:13' 
1961.0 5.465 0.46 0.3079 3.122 1.736 b'airline.csv:14" 
@ 5.825 0.485 0.3783 3.184 1.926 b'airline.csv:15' 


E32 ”输出 结果 


将 输出 结果 与 源 文件 airline.csv 进 行 对 比 ， 可 以 很 明显 地 看 到 差异 。 


读 取 TFRecords 数 据 


在 机 器 学 习 中 ， 处 理 的 数据 量 都 非常 巨大 ， 常 用 的 数据 读 取 方 式 一 般 都 会 存在 内 存 占 


用 过 高 的 问题 。TensorFlow 针 对 该 问题 进行 了 优化 ， 定 义 了 TFRecords 格 式 文 件 。 


TFRecords 是 一 种 二 进 制 文件 ， 能 更 好 地 利用 内 存 ， 更 方便 地 进行 复制 和 移动 ， 并 且 


不 需要 单独 标记 文件 ， 可 以 使 TensorFlow 的 数据 集 更 容易 与 网 络 应 用 架构 相 匹 
种 方式 读 取 数据 分 为 如 下 两 个 步骤 。 

@ 把 样本 数据 转换 为 TFRecords 二 进 制 文件 。 

@ 读 取 TFRecords 格 式 文件 。 


配 。 采 用 这 


前 一 章 介绍 了 MNIST 数 据 集 ， 本 节 将 继续 以 MNIST 数 据 集 为 数据 源 ， 将 其 转 为 


TFRecords 


格式 文件 ， 然 后 读 取 TFRecords 格 式 文件 中 的 几 张 图 片 。 


1. 生成 TFRecords 文 件 
TFRecords 文 件 中 的 数据 是 通过 tf.train.Example 协 议 缓冲 区 的 格式 存储 的 。 生 成 


TFRecords 
一 个 字符 


tensorflow\core\example 目 录 的 example.proto 和 feature.proto 文 件 中 给 


文件 就 是 将 数据 填 入 tftrain.Example 协 议 缓存 区 ， 然 后 将 该 协议 缓冲 
B, SATFRecordsX fF. 


区 序列 化 为 


H T tf.train. 


Example 协 议 缓冲 区 的 定义 : 
message Example { 
Features features = 1; 
h 


message Features( 
map«string,Feature» featrue = 1; 
上 


message Feature{ 
oneof kind( 
BytesList bytes list = 1; 
FloatList float. list = 2; 
Int64List int64. list = 3; 
} 
上 
从 上 述 代码 可 以 看 到 ，tf.train.Example 协 议 缓冲 区 的 数据 结构 相对 简洁 ， 可 以 理解 
成 属性 名 和 属性 值 的 对 应 关系 表 。 其 中 ， 属 性 名 是 一 个 字符 串 ， 属 性 值 可 以 是 字符 串 
(BytesList)、 实 数列 表 (FloatList) 或 整数 列表 (Int64List)。 
因此 ， 将 数据 填 入 tf.train.Example 协 议 缓冲 区 的 过 程 ， 就 是 构建 tf.train.Example 数 据 结 
构 的 过 程 。 对 于 MNIST 数 据 集中 的 数据 ， 我 们 构建 的 数据 结构 中 仅 保存 两 个 属性 : 标签 和 
图 像 。 数 据 结构 的 具体 实现 如 下 : 


example = tf.train.Example(features=tf.train.Features( 
feature={ 
"label: _int64_feature(np.argmax(labels[index])), 
'image raw': bytes feature(image raw) 
))) 


通过 TFRecordWriter() 方 法 ， 将 缓冲 区 的 数据 序列 化 后 写 入 TFRecords 文 件 。 生 成 
TFRecords 文 件 的 具体 实现 如 下 : 


01 import tensorflow as tf 

02 from tensorflow.examples.tutorials.mnist import input. data 
03 import numpy as np 

04 from PIL import Image 


05 # 主 程序 

06 if_ name --' main * 

07  getmnsit tfreords() # 生 成 TFRecords 文 件 
08 read tfrecords() 扒 卖 取 TFRecords 文 件 
09 


10 # 把 传 入 的 value 转 换 为 整 型 的 属性 ，int64_list 对 应 tftrain.Example 的 定义 

11 def int64 feature(value): 

12 return tf.train.Feature(int64 list-tf.train.Inte4List(value-[value])) 

13 sHBf&ABSvaluetti&7;e f gAEEIRSIRIE, bytes lisbXI tf.train.Example 的 定义 
14 def bytes feature(value): 

15 return tf.train.Feature(bytes list-tf.train.BytesL ist(value-[value])) 


17 defgetmnsit tfreords(): # 将 MNIST 数 据 集 转 为 TFRecords 文 件 方法 


18 ”# 污 取 MNIST 数 据 集 

19  mnist- input_data.read_data_sets("./mnist_data", dtype-tf.uint8, one_hot=True) 

20 images = mnist.train.images 春 绒 数据 的 图 像 ， 可 以 作为 属性 存储 

21 labels = mnist.train.labels PESEMA, GIL EZS IB IEGE NR 

22 num examples = mnist.train.num examples 者 | 练 数据 的 个 数 

23 

24 filename - "/output.tfrecords" # 指 定 要 写 入 TFRecords 文 件 的 地 址 

25 writer={tf.python_io.TFRecordWriter(flename) # 创 建 一 个 writer 来 写 TFRecords 文 件 

26  forindexin range(num examples): 

27 image. raw = images[index].tostring() # 把 图 像 和 矩阵 转换 为 字符 串 

28 # 将 一 个 样 例 转换 为 iftrain.Example 协 议 缓冲 区 ， 并 将 所 有 的 信息 写 入 这 个 数据 结构 

29 example - tf.train.Example(features-tf.train.Features(feature-( 

30 'abel:. int64  feature(np.argmax(labels[index])), 

31 'image raw: bytes feature(image raw)])) 

32 writer.Write(example.SerializeToString())# 将 tftrain.Example 协 议 缓冲 区 序列 化 后 写 入 TFRecords 
文件 

33  writer.close() 

其 中 ， 对 于 从 文件 中 读 取 的 数据 ， 第 10~15 行 定义 了 将 它们 转换 为 与 协议 缓冲 区 匹配 
的 整数 列表 和 字符 串 类 型 。 


第 19~22 行 读 取 MNIST 数 据 集 文件 ， 并 获取 与 数据 对 应 的 图 像 和 标签 。 
运行 上 述 代码 ， 将 在 代码 所 在 文件 夹 中 生成 output.tfrecords 文 件 。 使 用 二 进 制 文件 编 
辑 器 打开 该 文件 ， 显 示 结果 如 图 3.3 所 示 。 


| output.tfrecords x | 
91.467371 93970-9732 9 be qe d 
€0000000h: 3A 03 00 00 O0 OO OO OO O8 C5 59 4D OA B7 06 OA ; :........ "m 
0e0000010h: OE BA 05 6C 61 62 65 6C 12 05 1A 03 OA 01 07 0A ; InDEl. loves 
00000020h: A4 06 OA 09 69 6D 61 67 65 SF 72 61 77 12 96 06 ; ?..image raw.? 
00000030h: OA 93 06 OA 90 06 00 00 00 00 00 00 00 GO GO OO ; .2.2.......... 
eeoooo4Qh: GO GO OO OO OO OO OO OO OO OO OO OO OO OO OO OO ; ................ 
00000050h: OG OO OO OO OO OO OO OO OO OO OO OO OO OO OO OO ; ................ 
090000060h: 00 OO OO OO OO OO OO OO OO OO OO OO OO OO OO OO : ................ 
图 3.3 output.tfrecordsx (t 
2. 读 取 TFRecords 文 件 


读 取 TFRecords 文 件 就 是 使 用 队列 读 取 TFRecords 文 件 中 的 数据 ， 可 以 分 为 以 下 两 个 


步 又 。 


@ 获取 一 个 协议 缓冲 区 ， 解 析 对 应 属性 ， 转 换 为 张 量 。 

@ 将 张 量 作为 输入 进行 训练 处 理 。 

首先 ， 使 用 队列 从 TFRecords 文 件 中 读 取 数 据 ， 然 后 使 用 tf.TFRecordReader 的 tf.parse_ 
single_example 操 作 将 tf.train.Example 协 议 缓冲 区 解析 为 张 量 ， 具 体 实现 如 下 : 


01 # 读 取 TFRecords 文 件 中 的 数据 
02 def read tfrecords(): 


03 
04 
05 


reader = tf. TFRecordReader() # 他 | 建 一 个 reader 来 读 取 TFRecords 文 件 中 的 样 例 
368i tf.train.string input. producer 创建 输入 队列 
filename queue = tf.train.string input  producer([" /output.tfrecords"]) 


06 。 # 从 文件 中 读 取 一 个 样 例 到 队列 中 

07 ,serialized example = reader.read(filename queue) 
O8 ”# 解 析 读 入 的 一 个 样 例 

09 features = tf.parse single example( 


10 serialized example, 

11 features-[ 

12 太 文 里 ， 解 析 数 据 的 格式 需要 和 上 面 写 入 数据 的 格式 一 致 
13 'mage_raw': tf.FixedLenFeature([, tf.string), 

14 'labe!': tf.FixedLenFeature([, tf.int64), 

15 bi 


16 “ 州 ,decode_raw 可 以 将 字符 串 解析 成 与 图 像 对 应 的 像素 数组 
17 images = tf.decode raw(features[image raw", tf.uint8) 
18 images = tf.reshape(images, [28, 28, 1]) 

19  #tf.cast AREA NISGE EAA ERE 

20 labels = tf.cast(features['label], tf.int32) 


由 于 输入 图 像 的 处 理 可 以 是 无 序 的 ， 因 此 使 用 tf.train.shuffle_batch 生 成 随机 队列 以 进 
行 多 线程 的 样本 处 理 。 具 体 实现 如 下 : 


21 sess = tf.Session() 

22 # 肩 动 多 线程 处 理 输入 数据 

23 coord tf.train.Coordinator() 

24 threads = tf.train.start_queue_runners(sess=sess, coord=coord) 
25 num preprocess threads = 1 # 线 程 数 量 

26 batch size = 1 # 每 批 的 样本 数 

27 min queue examples = 50 # 队 列 最 小 值 

28 images batch, label batch - tf.train.shuffle batch( 


29 [images, labels], 

30 batch size-batch size, 

31 num threads-num preprocess threads, 

32 capacityzmin queue examples + 3 * batch size, 
33 min after dequeue-min queue examples) 


34 image = tf.reshape(images batch, [28, 28]) 


最 后 ， 将 获取 的 文件 张 量 batch 在 训练 中 进行 处 理 。 在 此 将 获取 的 张 量 转换 为 图 片 进 
行 保存 。 具 体 实现 如 下 : 

01 withtf.Session()as sess: 

02 init = tf.global variables initializer() 

03 sess.run(init) # 会 话 初始 化 

04 coord = tf.train.Coordinator() 


05 threads = tf.train.start queue runners(sess-sess, coord-coord) 
06 for i in range(5): 

07 data, label = sess.run([image, label batch]) # 获 取 数 据 

08 result = Image.fromarray(data) 

09 result.save(str(i) + "pno REGEK 


10 coord.request_stop() 
11 coord.join(threads) 


运行 上 述 代码 ， 在 代码 所 在 文件 夹 中 生成 了 对 应 的 5 个 图 片 文件 ， 结 果 显 示 如 图 
3.4 所 示 。 
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图 3.4 图 片 文件 


EJ 存储 和 加 载 模型 ^ 


机 器 学 习 中 最 关键 的 就 是 模型 的 设计 与 训练 。 

在 模型 的 设计 和 训练 过 程 中 ， 会 耗费 大 量 的 时 间 。 为 了 降低 训练 过 程 中 因 意 外 情况 发 
生 而 造成 的 不 良 影响 ， 我 们 会 对 训练 过 程 中 的 模型 进行 定期 存储 。 

为 了 保证 意外 中 断 的 模型 能 够 继续 训练 以 及 训练 完成 的 模型 在 其 他 数据 上 能 够 直接 使 
用 ， 我 们 会 对 存储 的 模型 进行 加 载 。 

TensorFlow 中 提供 了 tftrain.Saver 类 来 实现 训练 模型 的 保存 和 加 载 。tftrain.Saver 类 的 
save() 方 法 将 TensorFlow 模 型 保存 到 指定 路 径 中 ， 该 类 的 restore() 方 法 用 来 加 载 这 个 已 保存 
的 TensorFlow 模 型 。 


EEX] cem 


TensorFlow 模 型 包括 计算 图 以 及 计算 过 程 中 的 值 ， 主 要 包括 计算 图 中 的 所 有 变量 、 操 
作 等 ， 以 及 计算 过 程 中 的 权重 、 偏 差 、 梯 度 等 值 的 更 新 结果 。 

在 TensorFlow 中 ， 提 供 了 tftrain.Saver 类 来 完成 模型 的 存储 。 

saver = tf.train.Saver(max to keep, keep checkpoint every n hours) 

在 创建 类 时 ， 可 以 指定 最 多 可 保留 的 模型 数 、 训 练 过 程 每 隔 多 长 时 间 进 行 一 次 自动 保 
存 等 。 

外 train.Saver 类 提供 了 save0 方 法 来 实现 保存 工作 。 在 该 方法 中 需要 说 明 会 话 、 所 保存 
模型 的 名 称 ， 以 及 每 次 保存 模型 时 间隔 的 迭代 学 习 次 数 等 。 需 要 注意 的 是 ， 一 旦 调用 该 方 
法 ， 其 后 定义 的 变量 将 不 会 被 保存 。 具 体 实现 如 下 : 


saver.save(sess, my-model', global step-step,write meta graph-False) 


接 下 来 ， 使 用 saver 类 保存 训练 模型 ， 该 模型 实现 了 5*(w1+w2) 的 计算 ， 具体 实现 
如 下 : 


01 def Save_model(): 

02  w1-tf.placeholder("float", name-"w1") 
O3  w2-tf.placeholder("float", name-"w2") 
04  b1-tf.Variable(5.0,name-"b1") 

05  w3-tf.ada(w1,w2) 
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06 w4=tf.multiply(w3,b1,name="op_to_restore”) 大 十 算 (Ww1+W2)*5 
07 feed_dict={w1:1,w2:2} # 定 义 填充 数据 
08 


09 sess -tf.Session() 
10  sess.un(tf.global variables initializer()) 


11 saver -tftrain.Saver() # 定 义 saver 类 

12 print (sess.run(w4,feed_dict)) TISISRUSSR 

13  saver.save(sess, '/my. test model',global step-1000) # 保 存 模型 

14  sess.close() 

1:5. oit qm ) 

16 if name --' main * 

17 Save model) 扩 周 用 模型 存储 方法 


上 述 代码 获取 值 1 和 2 并 分 别 填充 到 w1 和 w2 中 ， 然 后 计算 其 和 的 5 倍 。 运 行 该 代码 ， 打 
印 输出 如 下 : 


可 以 看 到 ， 不 仅 有 控制 台 的 打印 输出 ， 还 在 代码 所 在 文件 夹 中 出 现 了 四 个 文件 ， 如 
图 3.5 所 示 。 


|.) checkpoint 
O my. test model-1000.data-00000-of-00001 
LÌ my.test model-1000.index 
[L] my.test model-1000.meta 
图 3.5 ”存储 的 文件 


这 四 个 文件 分 别 存储 训练 过 程 中 的 不 同 信息 ， 其 中 : 
口 .meta 文 件 保存 TensorFlow 计 算 图 的 结构 信息 。 
O data 和 .index 文 件 存储 训练 好 的 参数 。 


[3-2.2 E a id 


加 载 存储 好 的 模型 ， 包 括 加 载 模型 和 加 载 训练 参数 两 步 。 

TensorFlow 提 供 了 tftrain.import( 相 关 方 法 来 加 载 已 存储 的 模型 ， 如 import_meta_ 
graph() 方 法 : 

saver = tftrain.import_meta_graph(my_test_model-1000.meta) 

其 中 ，“my test model-1000.meta” 文 件 就 是 已 存储 的 模型 文件 。 

完成 计算 图 的 加 载 后 ， 还 需要 加 载 训练 过 的 参数 的 值 ， 这 需要 使 用 restore() 方 法 。 

完成 模型 的 加 载 后 ， 可 以 将 待 训练 数据 放 入 模型 中 进行 训练 。 例 如 ， 加 载 刚 才 存储 的 模 
型 S*(wl+w2)， 将 待 训练 数据 13、17 分 别 放 入 模型 的 w1 和 w2 中 进行 计算 。 有 具体 实现 如 下 : 


01 def Load_model(): 
02  sess-tf.Session() 
03 saver - tf.train.import meta graph( my test model-1000.meta') # 加 载 模型 
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04  saver.restore(sess,ftf.train.latest checkpoint( /")) # 加 载 参数 
05  graph-tf.get default graph() 
06  w1-graph.get tensor by name("w1:0") # 获 取 需 要 使 用 的 变量 


07  w2=graph.get_tensor_by_name("w2:0") 
08 feed_dict={w1:13.0,w2:17.0} 
09 op to restore = graph.get tensor by name('op to restore:0") 


10 print (sess.run(op to restore,feed dict)) Hnreem 
11  sess.close() 

42 — print poeren aan) 

13 if name  --' main * 


14 Save model() 
15 Load model) 


运行 上 述 代码 ， 打 印 输出 (13+17)*5 的 最 终结 果 ， 如 图 3.6 所 示 。 


INFO:tensorflow:Restoring parameters from ./my test model-1000 
150.0 


本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 
图 3.6 打印 结果 


可 以 很 明显 地 看 到 ， 所 存储 的 模型 已 加 载 ， 并 使 用 新 的 数据 w1=13 和 w2=17， 完 成 
5*(w1+w2) 的 计算 。 


E a e G 


在 完成 模型 的 基础 设计 后 ， 为 了 让 模型 能 够 满足 实际 的 生产 需要 ， 需 要 对 模型 的 各 种 
参数 进行 调整 和 优化 。 


[3-3.1 评 人 指标 的 介绍 与 使 用 


模型 的 评估 主要 有 如 下 几 个 指标 : 准确 率 、 识 别 的 时 间 和 loss 下 降 变 化 等 。 

观察 这 些 指 标 最 常用 的 工具 就 是 TensorFlow 提 供 的 可 视 化 工具 TensorBoard， 
TensorBoard 提 供 了 对 准确 率 、 损 失 值 、 权 重 、 偏 差 值 以 及 各 个 设备 上 所 消耗 内 存 和 时 间 
等 的 变化 情况 的 观察 。 在 第 2 章 ， 我 们 已 对 相关 内 容重 点 进行 了 介绍 。 

另 一 个 常用 的 工具 就 是 Timeline， 可 以 使 用 它 分 析 在 整个 模型 的 计算 过 程 中 ， 每 个 操 
作 所 消耗 的 时 间 ， 由 此 可 以 有 针对 性 地 优化 耗 时 的 操作 。 

使 用 Timeline 对 象 获取 每 个 节点 的 执行 时 间 ， 主 要 包括 如 下 步 又。 

O 在 sess.run0 中 指定 可 选 的 参数 options 和 run metadata. 

@ 在 Timeline 中 使 用 run_metadata.step_stats() 创 建 一 个 对 象 。 

@ 将 该 对 象 数据 保存 为 文件 。 
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下 面 实 现 和 矩阵 的 乘法 ， 使 用 timeline0 方 法 进行 记录 并 展示 ， 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 from tensorflow.python.client import timeline 

03 x= tf.random normal([100, 100]) # 随机 和 矩阵 

04 y = tf.random normal([100, 100]) 

05 res = tf.matmul(x, y) 

06 

07 with tf.Session() as sess: 

08 run options = tf.RunOptions(trace level-tf.RunOptions.FULL TRACE) 
09 run metadata - tf.RunMetadata() 

10  sess.run(res, options-run options, run metadata-run metadata) 
11 tl = timeline.Timeline(run metadata.step stats) 

12  ctf-tlgenerate chrome trace format() 

13 with open('timeline.json', 'w') as f: 

14 f.write(ctf) 


运行 上 述 代码 ， 会 在 代码 所 在 目录 中 生成 一 个 timeline.json 文 件 。 
在 谷歌 浏览 器 的 地 址 栏 中 输入 chrome://tracing， 将 生成 的 timeline.json 文 件 导入 该 页 面 
中 ， 显 示 结 果 如 图 3.7 所 示 。 


Record || Save || Load | timelinejson. 
L Joru 
* jjobilocalhost/replica:0/task:0/cpu:0 Compute (pid 1) 


" 


SHOW S55 pd 


Wig sue 


Litem selected. | Slice (1) 


Title -Retval Event(s) Link 
Category Op Incoming flow MatMul 
User Friendly Category other Outgoing flow MatMul 
Start 76004 ms Preceding events 
Wall Duration 10001ms Following events 2 events of various types 
P Args All connected events. 
name "retval Mattul 0 0* 
op * Retval* 
inputo "Wh" 
图 3.7 ”模型 耗 时 


图 3.7 所 示 界 面 的 顶部 就 是 时 间 轴 ， 以 ms( 毫 秒 ) 为 单位 。 
从 左 到 右 依次 为 模型 一 次 完整 的 计算 过 程 中 ， 每 个 操作 在 设备 上 消耗 的 时 间 。 有 具体 而 
言 ， 包 括 该 操作 的 开始 时 间 、 结 束 时 间 ， 以 及 运算 操作 的 输入 、 名 称 、 类 型 等 。 


EA exsistens 
对 模型 评估 的 准确 率 、 识 别 的 时 间 、loss 下 降 变 化 等 指标 的 调 优 主要 包括 两 类 操作 : 
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一 类 是 调整 模型 算法 ， 另 一 类 是 调整 参数 和 重 构 代码 。 对 于 调整 模型 算法 ， 我 们 将 在 后 续 
章节 中 详细 介绍 ， 本 节 着 重 讲解 调整 参数 和 重 构 代码 。 

调整 参数 和 重 构 代码 时 需要 注意 的 情形 ， 主 要 包括 以 下 方面 。 

1. 调整 学 习 率 

学 习 率 是 机 器 学 习 中 最 常设 定 的 参数 ， 表 示 每 次 学 习 调 整 的 变化 。 学 习 率 设置 得 越 
大 ， 训 练 时间 就 越 短 ， 速 度 就 越 快 ， 而 学 习 率 设置 得 越 小 ， 训 练 的 准确 度 就 越 高 。 在 训练 
模型 的 调 优 过 程 中 ， 对 于 学 习 率 的 设置 需要 不 断 地 进行 尝试 。 

在 目前 最 流行 的 神经 网 络 模型 中 ， 训 练 过 程 的 优化 方法 基本 包括 梯度 下 降 法 、 
Momentum 法 、AdaGrad 法 、RMSprop 和 Adam 等 方法 。 在 这 些 训练 方法 中 ， 梯 度 下 降 法 
和 Momentum 法 是 需要 预先 设 定 学 习 率 的 ， 而 其 他 几 种 方法 是 自 适 应 学 习 率 的 。 

梯度 下 降 法 最 常见 的 三 种 分 别 为 BGD、SGD 和 MBGD。 

O BGD(Batch Gradient Descent， 批 梯度 下 降 )。BGD 利 用 现 有 参数 对 整个 数据 集 的 

输入 计算 相应 的 输出 y 值 ， 然 后 和 实际 y 值 进行 比较 ， 进 而 统计 误差 、 计 算 评 价 误 
差 ， 以 及 作为 更 新 参数 的 依据 。 该 方法 保证 了 使 用 所 有 的 训练 数据 进行 计算 ， 能 
够 收敛 ， 不 需要 逐渐 减少 学 习 率 ; 但 是 计算 起 来 非常 慢 ， 遇 到 大 量 的 数据 集 也 会 
非常 为 手 ， 而 且 不 能 投入 新 数据 实时 更 新 模型 。 

O SGD(Stochastic Gradient Descent， 随 机 梯度 下 降 )。 与 BGD 一 次 用 所 有 数据 计算 梯 

度 相 比 ，SGD 每 次 更 新 时 对 每 个 样本 都 会 进行 梯度 更 新 。SGD 运 行 速度 比较 快 ， 
并 且 可 以 新 增 样本 ， 但 因为 更 新 比较 频繁 ， 可 能 造成 损失 值 有 严重 的 震荡 现象 。 
口 MBGD(Mini-Batch Gradient Descent， 小 批量 梯度 下 降 法 )。MBGD 每 次 利用 一 小 

批 样本 进行 计算 ， 这 样 可 以 降低 参数 更 新 时 的 方差 ， 收 敛 更 稳定 。 不 过 MBGD 不 
能 保证 很 好 的 收敛 性 。 如 果 学 习 率 选择 的 太 小 ， 收 敛 速度 会 很 慢 ;， 如 果 太 大 ， 损 
失 值 就 会 在 极 小 值 处 不 停 地 震荡 甚至 偏离 。 而 且 ， 对 于 非 凸 函数 ， 容 易 收 敛 到 局 
部 的 极 小 值 处 ， 甚 至 被 困 在 鞍点 处 。 

Momentum 法 则 加 入 速度 变量 v， 更 新 时 在 一 定 程 度 上 保留 之 前 的 更 新 方向 ， 利 用 当 
前 批 次 微调 本 次 的 更 新 参数 。 这 样 可 以 使 梯度 方向 不 变 的 维度 上 的 更 新 速度 变 快 ， 使 梯度 
方向 有 所 改变 的 维度 上 的 更 新 速度 变 慢 ， 从 而 加 快 收敛 并 减 小 震荡 。 

AdaGrad 法 对 低频 的 参数 做 较 大 的 更 新 ， 对 高 频 的 参数 做 较 小 的 更 新 。 这 样 在 处 理 稀 
疏 的 数据 时 就 能 够 有 较 好 的 表现 ， 但 是 由 于 计算 时 分 母 会 不 断 积累 ， 因 此 学 习 率 就 会 收缩 
并 最 终 变 得 非常 小 。 

RMSprop 是 Geoff Hinton 提 出 的 一 种 自 适 应 学 习 率 方法 ， 用 于 解决 AdaGrad FIRA 
剧 下 降 的 问题 ， 在 实践 中 对 于 循环 神经 网 络 的 效果 较 好 。 

Adam 是 另 一 种 计算 每 个 参数 的 自 适 应 学 习 率 方法 ， 能 够 根据 梯度 的 一 阶 矩 和 二 阶 
矩 进 行动 态 调整 。 

TensorFlow 也 提供 了 这 些 优 化 方法 ， 主 要 包括 如 下 几 种 。 


class tf.train.GradientDescentOptimizer 
class tf.train.AdagradOptimizer 
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class tf.train.MomentumOptimizer 
Class tf.train.AdamOptimizer 
class tf.train.FtrlOptimizer 

class tf.train. RMSPropOptimizer 


2. 优化 IO 

大 家 经 常 接触 到 的 数据 读 写 操作 主要 有 数据 预 处 理 、 队 列 以 及 内 存 读 写 等 操作 。 优 化 
IO 主 要 针对 这 三 大 数据 操作 。 

第 一 ， 在 数据 预 处 理 阶段 ， 如 果 数 据 量 比 较 大 ， 建 议 在 使 用 TensorFlow 官 方 提 供 的 数 
据 格式 TFRecords 进 行 转换 后 再 使 用 ， 一 般 不 直接 使 用 feed_dict 方 式 。 因 为 使 用 feed_dict 方 
式 会 将 所 有 的 输入 数据 首先 全 部 读 取 到 内 存 中 ， 然 后 再 执行 计算 ， 这 样 会 使 数据 IO 操作 和 
计算 操作 形成 串 行 。 而 使 用 TFRecords 格 式 的 数据 ， 由 TensorFlow 进 行 调度 ，TensorFlow 会 
尝试 将 各 种 计算 操作 和 数据 读 取 操 作 在 一 定 程度 上 形成 并 行 ， 从 而 带 来 性 能 上 的 提升 。 

第 二 ， 在 处 理 数据 时 ， 最 常 使 用 的 就 是 队列 。 在 实际 使 用 中 特别 需要 注意 的 是 min_ 
after_dequeue 值 的 设置 。 如 果 该 值 太 大 ， 会 使 队列 试图 在 内 存 中 保留 大 量 记录 ， 使 内 存 容 
易 达 到 饱和 ， 从 而 触发 硬盘 的 交换 功能 ， 降 低 队 列 的 速度 。 

第 三 ， 注 意 内 存 的 使 用 ， 应 使 整个 模型 的 内 存 消 耗 不 超出 机 器 内 存 。 如 果 超 出 机 器 内 
存 ， 必 然 触发 交换 功能 ， 从 而 降低 读 写 速 度 。 

3. 优化 计算 

对 于 计算 的 优化 ， 需 要 根据 实际 情况 进行 处 理 。 主 要 通过 对 TensorBoard 的 可 视 化 以 
及 timeline.json 文 件 进行 观察 ， 找 到 耗 时 多 的 操作 ， 通 过 优化 执行 顺序 、 并 行 操作 等 方式 
进行 具体 优化 。 
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本 章 主要 讲解 了 使 用 TensorFlow 进 行 机 器 学 习 过 程 中 的 加 载 训练 数据 、 构 建 训练 模 
型 、 进 行 数据 训练 、 评 估 和 预测 四 大 步骤 ， 重 点 介绍 了 这 四 大 步骤 中 常用 的 方法 和 技巧 。 
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线性 模型 


前 面 介绍 了 机 器 学 习 的 基础 知识 和 
TensorFlow 的 使 用 。 接 下 来 的 章节 将 对 经 
典 的 机 器 学 习 算法 进行 介绍 。 本 章 将 讲解 
机 器 学 习 算法 中 最 基础 的 线性 模型 ， 并 通 
过 对 线性 模型 的 学 习 进 一 步 熟 悉 如 何 使 用 
TensorFlow 完 成 机 器 学 习 模 型 的 构建 、 训 
练 和 评估 等 。 


MENE 


在 机 器 学 习 中 ， 线 性 模型 是 形式 最 简单 、 最 容易 理解 的 一 种 模型 ， 也 是 最 基础 的 一 种 

模型 。 在 数学 上 ， 用 函数 形式 可 表示 为 : 
f(x) = 0x4 +wx 十 … 十 Caxa t b 
使 用 向 量 方式 则 可 写成 : 
f(x) = o'x-b 

其 中 ，@ (0,505 04). 

在 二 维 几何 平面 上 可 以 理解 为 ， 在 一 个 平面 中 存在 已 知 的 数据 点 ， 通 过 学 习 处 理 ， 使 
用 一 条 线 能 够 建立 这 些 点 之 间 的 关系 ， 这 条 线 也 能 够 对 这 个 平面 上 未 知 的 点 进行 判断 。 

常见 的 线性 模型 有 线性 回归 和 逻辑 回归 两 种 。 虽 然 它们 都 是 线性 模型 ， 但 使 用 环境 和 
使 用 目的 存在 明显 的 差异 。 

口 线性 回归 

线性 回归 一 般 用 于 分 析 变 量 之 间 的 关系 ， 并 试图 通过 从 给 定 的 数据 中 学 习 到 的 线性 模 
型 来 预测 以 后 的 值 。 比 如 ， 通 过 房子 大 小 预测 房价 ， 通 过 加 油 量 预测 总 价 等 。 一 般 而 言 ， 
我 们 认为 模型 的 输入 值 是 连续 的 ， 输 出 值 也 是 连续 的 。 这 是 一 种 “回归 ”算法 。 


口 逻辑 回归 


逻辑 回归 也 称 为 对 数 概率 回归 ， 用 于 判断 输入 值 和 比较 对 象 的 “是 ”与 “ 否 ” 关 系 。 
比如 ， 房 子 是 大 是 小 ， 加 油 是 多 是 少 ， 喜 欢 玩 游戏 还 是 不 喜欢 玩 游戏 等 。 虽 然 名 字 中 有 
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“回归 ”两 个 字 ， 但 逻辑 回归 其 实 是 一 种 “分 类 ”算法 。 


接 下 来 ， 我 们 将 具体 讲解 线性 回归 和 逻辑 回归 。 


LoT MEN G 


我 们 知道 ， 线 性 回归 试图 得 到 一 个 线性 模型 ， 该 模型 的 预测 值 应 尽 可 能 准确 地 等 于 实 


际 值 。 本 节 将 讲解 如 何 使 用 TensorFlow 完 成 一 元 线性 回归 。 


可 将 一 元 线性 回归 理解 为 对 于 给 出 的 入 个 点 (x,y)， 找 到 一 条 直线 y=ax+b 来 拟 合 这 些 
点 。 在 初中 数学 中 ， 我 们 会 给 定 两 个 点 A(x1,y1) 和 B(x2,y2) 来 求解 出 a 和 b 的 值 ， 使 得 直线 穿 
过 这 两 个 点 。 但 是 ， 当 对 多 个 已 知 点 求解 最 合适 的 直线 时 ， 我 们 采用 最 小 化 均 方差 方法 ， 


使 得 所 有 点 到 这 条 直线 的 欧 氏 距离 之 和 最 小 。 


在 使 用 TensorFlow 进 行 编程 学 习 时 ， 可 以 分 为 以 下 四 步 。 


CD 生成 训练 数据 。 

Q 定义 训练 模型 。 

@ 进行 数据 训练 。 

Qf. 

接 下 来 ， 将 通过 以 上 几 步 来 进行 一 元 线性 回归 。 


4.2.1 Ens 


首先 ， 模 拟 生成 训练 数据 。 假 设 最 后 需要 学 习 的 方程 是 y=3x+5， 我 们 构造 满足 这 个 条 
件 的 若干 个 点 ， 并 在 构造 过 程 中 加 入 偏差 噪声 点 。 为 了 更 加 便捷 和 可 展示 ， 我 们 主要 使 用 


NumPy 和 matplotlib 两 个 库 来 实现 ， 有 具体 实现 如 下 : 


01 import os 

02 os.environ[TF__CPP_MIN_LOG_LEVEL]='2 
03 import tensorflow as tf 

04 import matplotlib.pyplot as plt 

05 import numpy as np 

06 np.set printoptions(threshold-'nan") 

07 t x7 np.linspace(-1,1,50,dtype = np.float32) 
08 noise = np.random.normal(0 , 0.05 , t x.shape) 
09 t y=t x*3.0*5.0*noise 

10 plt.plot(t xt y,'k." 

11 pit.show() 


其 


T 


# 用 于 模型 训练 

# 用 于 绘制 图 形 

# 用 于 科学 计算 
JEDER IUS 
# 生 成 x 

# 生 成 噪声 点 

# 生 成 y 

# 绘 图 


中 ， 第 01 和 02 行 定义 TensorFlow 中 日 志 的 显示 等 级 。 如 果 不 做 任何 处 理 ， 系 统 默认 


Python+TensorFlow 机 器 学 习 实 战 


参数 为 “1”， 会 显示 所 有 的 信息 ; 设置 参数 为 “2”， 只 显示 警告 和 错误 信息 ; 设置 参数 
为 “3”， 则 只 显示 错误 日 志 信息 。 

第 07 行 生成 30 个 数 ， 作 为 50 个 点 的 xz 轴 。 使 用 NumPy 库 的 等 差 数列 方法 ， 在 -1 到 1 之 间 
生成 50 个 数 。 

第 08 行 生成 噪声 点 。 这 里 获取 的 是 满足 均值 为 0、 方 差 为 0.05 的 正 态 分 布 的 随机 点 。 

第 09 行 生成 50 个 数 ， 作 为 50 个 点 的 y 轴 。 这 些 数 在 满足 y=3x+5 的 基础 上 增加 了 一 个 随 
机 数 。 


运行 这 段 代码 ， 就 可 以 看 到 随机 生成 的 训练 数据 ， 如 图 4.1 所 示 。 
8 | 
7 Fd 
6 
; Pa 
4 P d 
3 "ud 
2 cU l l l l l l 
-100 -0.75 -0.50 -0.25 000 025 050 075 100 
图 4.1 训练 数据 
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完成 训练 数据 的 生成 后 ， 下 面 实现 线性 回归 的 训练 模型 。 前 面 已 提 到 过 ， 这 可 以 使 用 
最 小 化 均 方 误差 来 实现 。 具 体 实现 如 下 : 


01 x = tf.placeholder(tf.float32) # 占 位 符 
02 y = tf.placeholder(tf.float32) 

03 a= tf.Variable(0.0) # 变 量 节点 
04 b= tf.Variable(0.0) 

05 curr y=x*a+b # 线 性 模型 
06 loss = tf.reduce sum(tf.square(curr. y — y)) # 损 失 函 数 


07 optimizer = tf.train.GradientDescentOptimizer(learning rate) 
08 train = optimizer.minimize(loss) 制 | 练 的 结果 是 使 损失 函数 的 值 最 小 
其 中 ， 第 06 行 定义 了 损失 函数 。 使 用 线性 模型 ， 计 算 每 一 个 训练 值 对 应 的 模型 的 输出 
值 curr y， 计 算 输出 值 与 该 点 的 实际 y 值 之 间 的 方差 。 


第 07 和 08 行 定义 了 学 习 优化 器 ， 使 用 梯度 下 降 法 ， 让 损失 函数 的 值 最 小 。 


[4.2.3] 进行 数据 训练 


接 下 来 进行 正式 的 数据 训练 。 总 共 训练 1000 次 ， 每 次 的 学 习 率 为 0.001。 为 了 便于 


查 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 
16 
HW 


learning rate-0.001 
training epochs-1000 
sess - tf.Session() 
sess.run(tf.global variables initializer()) 
for i in range(training epochs): 

sess.run(train, (t x, y:t. y]) 

if i 96 207-0: 

print (i,sess.run([a,b,loss], {x:t_x, yt y])) 

a val-sess.run(a) 
b val-sess.run(b) 
print("this model is y=",a_val," *x-"b val) 
sess.close() 
y learned-t x*a val*b val 
plt.plot(t x,t. y,'k.") 
plt.plot(t xy learned;'g-") 
plt.show() 
plt.close() 


ER 


看 训练 过 程 ， 每 训练 完 20 次 ， 输 出 当前 的 训练 次 数 、a、b 以 及 损失 值 ， 最 终 绘 制 训练 集 的 
点 和 拟 合 的 直线 ， 具 体 实现 如 下 : 


# 学 习 率 
HIER 

# 创 建 Session 
# 变 量 初始 化 


# 从 训练 集中 开始 训练 


# 关 闭 


# 绘 制 点 
# 绘 制 线 


其 中 ， 第 06 行 按照 训练 模型 不 断 进行 训练 。 每 次 都 从 训练 集 t_x 中 获取 一 个 x， 按 照 训 


练 模型 train 进 行 训 练 ， 并 与 对 应 的 ty 进行 比较 。 


[4.2.4 EEE 


经 过 以 上 步骤 ， 可 以 看 到 在 训练 过 程 中 拟 合 值 的 变化 情况 ， 如 图 4.2 所 示 。 

从 图 4.2 的 左 图 可 以 看 出 ， 当 六 0 时 ， 拟 合 的 值 与 目标 值 差别 很 大 ， 损 失 值 也 很 大 。 当 
六 20、i=40、 六 60 时 ， 损 失 值 在 不 断 缩小 。 

从 图 4.2 的 右 图 可 以 看 出 ， 在 训练 后 期 ，a 和 2、 损 失 值 都 不 再 发 生变 化 ， 达 到 了 最 佳 


6 [0.10394561, 0.49944523, 1155.4668] 
20 [1.5687652, 4.4479647, 50.387043] 
40 [2.291677, 4.9280124, 8.9429426] 
60 [2.6484456, 4.9863749, 2.2146091] 
80 [2.8245161, 4.9934702, 0.62562239] 
100 [2.9114101, 4.9943328, 0.23934509] 
120 [2.9542933, 4.9944377, 0.1452755] 
140 [2.975457, 4.9944501, 0.1223639] 
160 [2.9859014, 4.9944501, 0.11678365] 
180 [2.991056, 4.9944501, 0.1154246] 
200 [2.9935999, 4.9944501, 0.11509348] 
220 [2.9948554, 4.9944501, 0.11501306] 
240 [2.9954753, 4.9944501, 0.11499324] 
260 [2.9957814, 4.9944501, 0.11498839] 


图 4.2 打印 输出 


900 [2.9960759, 4.9944501, 
920 [2.9960759, 4.9944501, 
940 [2.9960759, 4.9944501, 
960 [2.9960759, 4.9944501, 0.11498683] 
980 [2.9960759, 4.9944501, 0.11498683] 
this model is y- 2.99608 * x + 4.99445 


800 [2.9960759, 4.9944501, 0.11498683] 
820 [2.9960759, 4.9944501, 0 
840 [2.9960759, 4.9944501, 0 
860 [2.9960759, 4.9944501, 0 
880 [2.9960759, 4.9944501, 0.11498683] 
e 
e 
e 


.11498683] 
.11498683] 
-11498683] 


-11498683] 
-11498683] 
-11498683] 


从 图 4.3 的 图 形 输出 中 ， 可 以 看 到 生成 的 数据 和 拟 合 的 直线 。 
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-100 -075 -050 -025 000 02s 050 075 100 
图 4.3 图 形 输出 
在 本 节 中 ， 我 们 第 一 次 真正 使 用 TensorFlow 完 成 了 一 元 线性 回归 。 虽 然 实现 起 来 比较 
简单 ， 但 最 主要 的 是 掌握 了 使 用 TensorFlow 训 练 测 试 数据 的 方法 ， 通 过 构建 模型 使 得 损失 
函数 达到 我 们 的 要 求 ， 从 而 确定 模型 相关 的 权重 值 。 


EI smem e À 


前 面 讲 解 了 一 元 线性 回归 ， 了 解 了 TensorFlow 的 基本 用 法 。 当 然 ， 在 实际 使 用 中 会 存 
在 多 个 因素 共同 影响 结果 的 情况 。 例 如 蛋糕 与 制作 蛋糕 的 材料 有 关 ， 也 与 蛋糕 的 尺寸 有 
关 。 房 子 的 总 价 和 房子 的 大 小 、 位 置 等 都 有 关系 。 在 本 节 中 ， 将 通过 拟 合 平面 来 讲解 多 元 
线性 回归 。 


| 4.3.1| 二 元 线性 回归 算法 简介 


我 们 已经 知道 线性 回归 算法 ， 其 向 量 方式 可 写成 f(x)=w'x+b ， 其 中 ， 
@=(0;0,;...;0)) 。 


如 果 是 二 元 情况 ， 使 用 矩阵 形式 可 以 表示 为 : 


bllof | 
可 以 将 二 元 线性 回归 理解 为 使 用 一 个 平面 y=wyxi+wsxytb 来 拟 合 这 些 点 。 与 一 元 线性 回 
归 一 样 ， 使 用 TensorFlow 进 行 编程 学 习 时 ， 可 分 为 如 下 四 步 。 
CD 生成 训练 数据 。 
© 定义 训练 模型 。 
@ 进行 数据 训练 。 
Q3 gs. 


[14.3.2 isse 


对 于 训练 数据 ， 我 们 同样 通过 模拟 生成 。 假 设 最 后 需要 学 习 的 方程 是 y=0.1x1+0.2x， 
+0.3。 因 为 在 TensorFlow 中 ， 我 们 一 般 使 用 和 矩阵 运算 来 实现 ， 学 习 方 程 也 可 以 表示 为 


[»]=[0.1 oa | teal. 在 构造 模拟 数据 时 ， 需 要 使 用 数组 来 构造 对 应 的 数据 ， 具 体 实 


现 如 下 : 


01 import os 


02 os.environ['TF_CPP_MIN_LOG_LEVEL"]='2' 


03 import tensorflow as tf 
04 import matplotlib.pyplot as plt 


05 from mpl toolkits.mplot3d import Axes3D 


06 import numpy as np 
07 learning rate-0.5 
08 training epochs-1000 


09 np.set printoptions(threshold-'nan') 


# 构 造 数据 


10 x data = np.float32(np.random.rand(2,100)) 


11 y. data = np.dot(np.float32([0.100, 0.200]), x. data) + 0.300 


# 绘 制 三 维 散 点 图 
12 fig = plt.figure() 


13 ax = fig.add subplot(111, projection-'3d") 


14 ax.scatter(x data[0]:99],x data[1][:99], y data[:99], c='r') 


15 ax.set zlabel(Z") 
16 ax.set ylabel('Y') 
17 ax.set xlabel(X") 
18 plt.show() 
19 plt.close() 


其 中 ， 第 10 行 生成 了 一 个 2 行 100 列 的 数组 ， 数 组 中 的 元 素 为 小 于 1 的 随机 数 。 数 组 中 


每 一 列 的 两 个 数字 就 是 对 应 的 x 六 ， 一 共 100 个 数 。 


第 11 行 使 用 矩阵 乘法 方式 ， 由 x 值 生成 对 应 的 > 值 。 


ER 


# 绘 制 三 维 图 像 


# 学 习 率 
夫 | 练 次 数 
替 J 印 内 容 不 限 长 度 


# 以 数组 方式 随机 生成 100 个 值 
# 生 成 y 值 


# 创 建 三 维 的 绘图 工程 
# 绘 制 数据 点 
# 坐 标 轴 


运行 这 段 代码 ， 可 以 看 到 随机 生成 的 训练 数据 ， 如 图 4.4 所 示 。 


图 4.4 训练 数据 
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| 4.3.3 cT 
完成 训练 数据 的 生成 后 ， 我 们 通过 使 用 最 小 化 均 方 误 差 来 实现 线性 回归 的 训练 模型 ， 
具体 实现 如 下 : 


01 x = tf.placeholder(tf.float32,[None,None],name- x") # 占 位 符 

02 y = tf.placeholder(tf.float32,[None,None],name-'y") 

03 W= tf. Variable(tf.random uniform([1, 2], - 1.0, 1.0)) # 变 量 节点 

04 b= tf.Variable(tf.zeros([1])) 

05 y = tf.matmul(W, x data) + b # 一 元 线性 模型 
06 loss = tf.reduce mean(tf.square(y - y. data)) # 损 失 函 数 


07 optimizer = tf.train.GradientDescentOptimizer(learning rate) 
08 train = optimizer.minimize(loss) 
09 init -tf.global variables initializer() 3 初始 化 所 有 变量 


| 4.3.4 ID 
接 下 来 进行 正式 的 数据 训练 。 总 共 训练 1000 次 ， 每 次 的 学 习 率 为 0.05。 为 了 便于 查看 
训练 过 程 ， 每 训练 完 20 次 ， 输 出 当前 的 训练 次 数 、w 和 2 值 ， 具 体 实现 如 下 ; 


01 with tf.Session() as sess: 


02  sess.un(init) # 变 量 初始 化 
03  forstep in range(1,training epochs): 

04 sess.run(train) L2 

05 preW- sess.run(W) 

06 preb= sess.run(b) 

07 if step 96 20 == 0: 

08 print (step, n',preW[O][0],preW[0][1],^n',preb[0]) # 输 出 训练 值 


09 sess.close() 


| 4.3.5| 运行 总 结 


经 过 以 上 步 又 后 ， 可 以 看 到 训练 过 程 中 拟 合 值 的 变化 情况 。 从 图 4.5 中 可 以 看 出 ， 随 
着 训练 的 进行 ， 拟 合 值 与 目标 值 不 断 靠 近 。 

在 本 节 中 ， 我 们 再 一 次 使 用 TensorFlow 执 行 了 生成 训练 数据 、 定 义 训练 模型 、 进 行 数 
据 训练 和 运行 总 结 四 个 步骤 ， 完 成 了 二 元 线性 回归 。 在 二 元 线性 回归 中 ， 最 重要 的 是 使 用 
矩阵 运算 法 则 构建 模型 ， 多 元 线性 回归 也 是 在 此 基础 上 进行 拓展 而 来 的 。 
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20 

0.066384204 0.3652406 
9.23973656 

40 

0.10309147 0.23788247 
0.28049332 

6e 

0.10350467 0.20945708 
9.29369 

8e 

0.10158254 0.20255636 
9.2979596 

100 

日 .19659223 0.20073645 
9.29934034 

120 

0.100205936 0.20022194 
09.29978675 

140 

0.100069165 0.20006886 
9.29993108 


图 4.5 打印 输出 
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前 面 讲解 了 线性 回归 ， 解 决 的 问题 是 如 何 通过 一 个 连续 方程 来 预测 未 来 值 。 针 对 从 给 
定数 据 中 学 习 到 的 线性 模型 ， 逻 辑 回 归 用 来 判断 以 后 的 输入 值 与 所 比较 对 象 间 的 “是 ”与 
“T” 关系 。 

[4.4.1 E E A E 


对 于 判断 是 与 否 的 问题 ， 输 出 值 yef011， 输 入 值 为 线性 回归 产生 的 预测 值 
zo xb. 从 而 形成 将 z 转 为 ?的 函数 关系 : 


0, 250 
y= 1055, z=0 
1 z»0 


即 预 测 值 小 于 0， 则 判断 为 “ 否 ”; 预测 值 大 于 0， 则 判断 为 “是 ”; 预测 值 为 临界 值 
0， 则 可 任意 判断 ， 函 数 图 像 如 图 4.6 所 示 。 
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3 * z z 5 7 
图 4.6 ”函数 图 像 


对 于 该 函数 关系 ， 很 自然 地 会 想到 一 个 普 代 函数 : 
1 
y^ Tre 
这 就 是 我 们 常 说 的 对 数 几率 函数 ， 也 是 一 种 sigmoid 函 数 。 
对 于 该 函数 ， 进 行 展开 ， 计 算 值 


wix+b=z= md -— 
按照 二 项 分 布 ， 值 取 1 时 概率 为 p， 值 取 0 时 概率 9=1-P。 对 该 函数 概率 估计 为 : 
ewTX+b 


pYy=1| x)- 


T 
1 十 ew x+b 


1 
pre | e — nes 


通过 极 大 似 然 法 估计 w 和 2 的 值 ， 为 了 计算 预测 结果 与 真实 结果 的 切合 程度 ， 计 算出 
损失 函数 为 : 


loss — -Yo log(ypred;) + (1 — y; ) log(1 — ypred;)) 


i=1 


理解 了 逻辑 


H 


CD 生成 训练 数据 。 
@ 定义 训练 模型 。 
© 进行 数据 训练 。 
图 运行 总 结 。 


归 算 法 中 最 重要 的 回归 模型 和 损失 函数 后 ， 使 用 TensorFlow 进 行 如 下 四 
步 编程 即 可 完成 学 习 。 


mre 


[4.4.2 ess 


我 们 假设 平面 中 存在 点 4(x1,x2)， 如 果 该 点 满足 条 件 x1x2+x2<2， 则 认为 是 一 个 类 
型 ， 满 足 条 件 x1xx2+x2>2 的 是 另 一 个 类 型 。 

对 于 训练 数据 ， 我 们 同样 通过 模拟 生成 。 假 设 在 x 轴 的 (-1,1) 和 y 轴 的 (0,2) 之 间 随 机 获 
取 150 个 点 。 对 于 获取 的 每 一 个 点 ， 依 据 该 点 的 x 轴 值 (x1) 和 y 轴 值 (x2) 计 算出 x1x2+x2， 然 后 
根据 值 与 2 的 关系 ， 对 该 点 进行 类 型 标记 。 当 计算 值 小 于 或 等 于 2 时 ， 标 记 为 0， 大 于 2 时 ， 
标记 为 1。 对 模拟 的 训练 数据 根据 不 同 标记 绘制 不 同 颜色 的 点 ， 具 体 实现 如 下 : 


01 
02 


24 


import tensorflow as tf 
import matplotlib.pyplot as plt 
import numpy as np 
# 声 明 数据 数组 和 标签 
data=[ 
label-[] 
np.random.seed(0) 
# 随 机 产生 训练 集 
foriin range(150): 
x1=np.random.uniform(-1,1) 
x2-np.random.uniform(0,2) 
if x1*2+ X2<=2: 
data.append([np.random.normal(x1,0.1),np.random.normal(x2,0.1)]) 
label.append(O) 
plt.plot(data[i][O],data[i)1],'go") 
else: 
data.append([np.random.normal(x1,0.1),np.random.normal(x2,0.1)]) 
label.append(1) 
plt.plot(data[i]|O], data[i]1],'r*") 
# 绘 制图 形 
data-np.hstack(data).reshape(- 1,2) 
label-np.hstack(label).reshape(-1,1) 
plt.scatter(data[ : ,0], data[ :, 1], c-label, cmap-"RdBu", vmin--.2, vmax-1.2, edgecolor-"white") 
plt.show() 


运行 上 述 代 码 ， 可 以 看 到 随机 生成 的 训练 数据 ， 如 图 4.7 所 示 。 
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图 4.7 训练 数据 
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我 们 已 经 知道 逻辑 回归 模型 预测 值 是 对 线性 回归 预测 值 求 sigmoid 函 数 ， 如 下 所 示 
y=tf.sigmoid(tf.matmul(x, W) + b) 


损失 函数 为 预测 值 与 真实 值 的 切合 程度 ， 对 其 求 平均 值 ， 实 现 如 下 : 


cross entropy = -tf.reduce sum(y *tf.log(y) + (1-y. )*tf.log(1-y))/sample size 


在 此 基础 上 ， 完 成 整个 训练 模型 的 具体 实现 如 下 : 


01 # 定 义 变量 

02 x-tf.placeholder(tf.float32,shape-(None,2)) 

03 y -tf.placeholder(tf.float32,shape-(None, 1)) 

04 W = tf. Variable(tf.zeros([2, 1])) 

05 b= tf. Variable(tf.zeros([1])) 

06 # 滥 辑 回 归 模 型 

07 y 7 tf.sigmoid(tf.matmul(x, W) + b) 

08 # 计 算 损 失 值 

09 sample_size=len(data) 

10 cross entropy = -tf.reduce_sum(y_*tf.log(y) + (1-y. ) * tf.Jog(1-y))/sample_size 

11 Jl ea 

12 learning rate = 0.01 # 学 习 率 

13 cost prev-O 

ji train step = tf.train.GradientDescentOptimizer(learning rate).minimize(cross entropy) 
5 init = tf.global variables initializer() 


4.4.4] 进行 数据 训练 


接 下 来 进行 正式 的 数据 训练 ， 获 取 最 终 的 训练 次 数 时 的 w 值 和 2 值 ， 具 体 实现 如 下 : 


01 sess = tf.Session() 

02 sess.run(init) 

03 for iin range(40001): 

04  sess.un(train step, feed dict-[x:data, y. :label]) 

05 train cost-sess.run(cross entropy, feed dict-[x:data, y :label)) 
06  ifnp.abs(cost prev-train cost)«1e-6: 


07 break 

08 cost prev-train cost 

09 ifi% 2000--0: 

10 print (i,sess.run((W,b,cross entropy],[x:data, y. :label])) 


11 fHOSRERSEBSo (EUROPE 
12 W valssess.run(W) 
13 b val-sess.run(b) 
14 sess.close() 


运行 上 述 代 码 ， 可 以 看 到 在 训练 过 程 中 拟 合 值 的 变化 情况 ， 如 图 4.8 所 示 。 


6€ [array([[ @0.00174148], 

[-0.00151838]], dtype-float32), 
2000 [array([[ 1.88180876], 

[ 0.38590875]], dtype-float32), 
4000 [array([[ 2.64844394], 

[ 0.83563882]], dtype-float32), 
6600 [array([[ 3.12816238], 

[ 1.17445159]], dtype-float32), 
8000 [array([[ 3.487468 ], 

[ 1.44715154]], dtype-float32), 
10000 [array([[ 3.78187323], 

[ 1.67448699]], dtype-float32), 
12000 [array([[ 4.03545713], 

[ 1.86881757]], dtype-float32), 
14000 [array([[ 4.26054049], 

[ 2.03822899]], dtype-float32), 
16000 [array([[ 4.46425056], 

[ 2.18828297]], dtype-float32), 
18000 [array([[ 4.65109348], 

[ 2.32294559]], dtype-float32), 
20000 [array([[ 4.82413387], 

[ 2.44512153]], dtype-float32), 
22000 [array([[ 4.98558855], 

[ 2.55699348]], dtype-float32), 
24000 [array([[ 5.13711691], 

[ 2.66023445]], dtype-float32), 
26000 [array([[ 5.28001976], 

[ 2.75613737]], dtype-float32), 
28000 [array([[ 5.41532373], 

[ 2.84574389]], dtype-float32), 
30000 [array([[ 5.54389906], 

[ 2.92988086]], dtype-float32), 


图 4.8 


UEE 3655 


array([-0.00253333], 
array([-1.47581887], 
array([-2.23620462], 
array([-2.81064558], 
array([-3.27408338], 
array([-3.66306329], 
array([-3.99857593], 
array([-4.29388428], 
array([-4.55791616], 
array([-4.79694891], 
array([-5.01555777], 
array([-5.21718073], 
array([-5.40443754], 
array([-5.57939911], 
array([-5.74370718], 


array([-5.89869642], 


拟 合 值 的 变化 情况 
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.69197392] 


dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 


dtype-float32), 


.32219344] 
.25254235] 
.21857308] 
.19758792] 
.18307295] 


.17232466] 


dtype-float32), 0.16398668] 
dtype-float32), 0.1572945] 
dtype-float32), 0.15178165] 
dtype-float32), 0.147146] 
dtype-float32), 0.14318244] 
dtype-float32), 0.13974674] 
dtype-float32), 0.13673414] 
dtype-float32), 0.13406654] 
dtype-float32), 0.13168426] 


经 过 以 上 步 又 后 ， 我 们 完成 了 训练 ， 为 了 更 直观 地 看 到 最 终 的 训练 结果 ， 绘 制 模拟 的 


散 点 图 和 拟 合 的 直线 ， 有 具体 实现 如 下 : 


01 # 绘 制 直线 和 散 点 图 

02 w1=W_val[0,0] 

03 w2=W_vall1.0] 

04 k--w1/w2 

05 b--b val/w2 

06 xx-np.linspace(- 1,1.2,100) 

07 yy=k*xx+b 

08 plt.plot(x,yy) 

09 for iin range(150): 

10  if(label[i]--0): 

11 plt.plot(data[i][O], data[i][1],'9o") 
12 else: 

13 plt.plot(data[i][O], data[i][1],'r*") 
14 plt.show() 


运行 上 述 代码 ， 绘 制 拟 合 的 直线 和 模拟 的 散 点 图 ， 如 图 4.9 所 示 。 
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图 4.9 可 视 化 输出 结果 


在 本 节 中 ， 我 们 讲解 了 逻辑 回归 算法 和 具体 实现 ， 并 对 有 不 同 标识 的 数据 进行 了 有 效 
分 类 。 
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本 章 主 要 讲解 了 机 器 学 习 算 法 中 最 基础 的 两 种 线性 模型 : 一 种 是 用 于 预测 的 线性 回 
归 模 型 ， 另 一 种 是 用 于 分 类 的 逻辑 回归 模型 。 本 章 通过 讲解 算法 的 基本 原理 以 及 实际 使 用 
TensorFlow 进 行 机 器 学 习 的 四 大 步骤 ， 进 行 了 实践 。 
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支持 向 量 机 


前 面 介绍 了 机 器 学 习 中 最 基础 的 线 
性 模型 ， 并 熟悉 了 使 用 TensorFlow 完 成 
机 器 学 习 训 练 的 基本 过 程 。 接 下 来 将 讲 
解 机 器 学 习 算法 中 经 典 的 支持 向 量 机 。 


E R e À 


支持 向 量 机 (Support Vector Machine) 由 Cortes 和 Vapnik 首 先 提 出 ， 建 立 在 统计 学 习 理论 
的 VC 维 理论 和 结构 风险 最 小 原理 基础 之 上 ， 根 据 有 限 的 样本 信息 在 模型 的 复杂 性 和 学 习 
能 力 之 间 寻 求 最 佳 折 中 ， 以 期 获得 最 好 的 使 用 能 力 。 因 此 ， 支 持 向 量 机 在 解决 小 样本 、 非 
线性 及 高 维 模式 识别 中 表现 出 许多 特有 的 优势 ， 并 能 够 推广 应 用 到 函数 拟 合 等 其 他 机 器 学 
习 问 题 中 。 


CER SVM 基本 型 


支持 向 量 机 最 基本 的 思想 就 是 ， 在 样本 空间 中 找到 线性 可 分 的 直线 或 超 平面 ， 将 不 同 
类 别 的 样本 分 开 。 这 样 的 直线 有 很 多 条 ， 而 支持 向 量 机 认为 最 佳 的 直线 就 是 划分 两 类 目标 
后 有 最 大 距离 的 直线 。 

在 数学 上 ， 我 们 认为 在 样本 空间 中 ， 对 不 同类 别 样本 进行 分 开 的 直线 或 超 平面 可 通过 
线性 方程 来 描述 : 

y-2oxctb 

KH, œ= (w; wz;…; wg)。 如 图 5.1 所 示 ， 实 线 对 “+” 样 本 与 “-” 样 本 进行 了 

分 类 。 


图 5.1 支持 向 量 与 间隔 
样本 空间 中 任意 一 点 x 到 超 平 面 的 距离 为 : 
loTx+b| 


TERT 
由 于 超 平面 对 样本 进行 了 正确 分 类 ， 我 们 将 分 类 的 一 类 样本 标识 为 “+1”， 将 另 一 类 
样本 标识 为 “-1”。 则 yi = +1 时 ，wTXx 十 b > 0; y; = 一 1 时 ，wTx 十 b < 0。 当 超 平面 分 
别 向 两 类 样本 平移 时 ， 距 离 超 平面 最 近 的 几 个 训练 样本 点 会 使 得 如 下 等 式 成 立 : 


[. +b=+1, y=+1 


wix+b=-1l, y=-1 

此 时 ， 将 这 几 个 训练 样本 点 称 为 “支持 向 量 ”， 而 将 两 个 异类 支持 向 量 到 超 平面 的 距 

离 之 和 称 为 “间距 ”， 值 为 
2 
Y= Toli 

支持 向 量 机 的 目的 就 是 找到 满足 条 件 且 具有 最 大 间距 的 划分 超 平面 。 从 公式 中 可 以 很 
明显 地 看 出 ， 为 了 最 大 化 间距 ， 需 要 最 大 化 lloll-:， 可 以 等 价 认为 是 最 小 化 ||o||?。 

所 以 ， 我 们 对 满足 假设 条 件 且 最 大 化 间距 的 超 平面 描述 如 下 : 


1 
min = ||o||? 
| minz lloll 
yi(oTx + b) >1,i = 1,2,3, m 


这 就 是 支持 向 量 机 的 基本 型 。 


1 ， 请 参考 https://en.wikipedia.org/wiki/Suppor vector machine. 
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SVM 核 函数 简介 


前 面 讨论 的 前 提 是 原始 样本 空间 是 线性 可 分 的 ， 但 在 现实 任务 中 ， 原 始 样本 空间 中 并 
不 一 定 存在 能 正确 划分 两 类 样本 的 超 平面 。 对 于 这 种 非 线 性 情况 ，SVM 的 处 理 方法 是 将 
数据 映射 到 高 维特 征 空间 ， 然 后 在 高 维特 征 空间 中 构造 出 最 优 分 离 超 平面 ， 从 而 解决 原始 
空间 中 线性 不 可 分 的 问题 。 

在 数学 上 ， 在 线性 可 分 的 样本 空间 中 ， 可 以 找到 正确 划分 的 超 平面 。 而 对 于 非 线性 情 
况 ， 找 到 映射 函数 pg， 使 得 样本 空间 数据 映射 到 高 维特 征 空 间 后 也 能 找到 线性 的 超 平 
可 表述 为 : 


1 
| mins lloll? 
yi(o (xi) + b) > 1,i = 1,2,3, .., m 
上 述 计算 公式 中 未 知 量 的 个 数 取决 于 参数 @ 的 维度 ， 而 的 维度 与 变换 后 样本 空间 的 
维度 相同 ， 也 就 是 说 ， 求 解 复杂 度 与 映射 后 样本 的 维 数 正 相关 。 在 把 原始 样本 映射 到 高 维 
特征 空间 时 ， 可 能 存在 将 样本 空间 映射 到 无 穷 维 的 可 能 性 ， 从 而 导致 因 维度 过 高 而 无 法 求 
解 的 情况 。 
为 了 解决 这 样 的 间 题 ， 在 实际 计算 中 使 用 了 线性 学 习 器 的 对 偶 优化 以 及 数学 计算 的 核 
技巧 (kernel trick)， 从 而 降低 计算 的 复杂 度 ， 甚 至 把 不 可 能 的 计算 变 为 可 能 。 
非 线性 划分 平面 的 对 偶 表达 式 为 : 


min( Y Y a; ajyiy; 6 (x) hx) 一 ai) 


iei j=1 i=1 


n 
> yiai=0 
i=1 


由 于 核 函数 的 一 个 重要 性 质 就 是 ， 低 维 空间 中 向 量 的 核 函 数 计算 结果 等 于 向 量 在 高 维 
空间 中 的 内 积 运算 结果 。 
K(x,xj) = < p) : plx) >= padol) 
也 就 是 说 ， 可 以 使 用 核 函 数 直接 在 样本 空间 中 计算 内 积 。 在 非 线 性 划分 平面 的 对 
flies, TAREKA xy) B bc (xj). JT d SE SCIRE E 
同样 ， 我 们 求解 的 平面 也 可 使 用 核 函 数 进行 表述 ， 从 而 避免 显 式 的 特征 变换 ， 表 述 方 
UA: 


m 


y= wd) bo 》 ay, KG x) b 


i-i 


总 的 来 说 ，SVM 核 函数 的 目的 就 是 解决 将 非 线 性 样本 空间 映射 到 高 维 空 间 时 的 维 灾 
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难 问题 ， 也 就 是 使 用 核 函 数 实现 特征 从 低 维 到 高 维 的 转换 ， 但 避免 直接 进行 高 维 空间 中 的 
复杂 计算 。 
常用 的 核 函 数 包括 线性 核 、 多 项 式 核 、 高 斯 核 (RBF 核 ) 和 sigmoid 核 等 。 
线性 核 是 最 简单 的 核 函 数 ， 其 表达 式 为 : 
K(x xj) = xiTxy 
多 项 式 核 是 常用 的 核 函 数 ， 其 表达 式 为 : 
K(x; xj) = (xiTx)! 
高 斯 核 通 常 是 首选 ， 实 践 中 往往 能 表现 出 良好 的 性 能 ， 其 表达 式 为 : 


Ilx: — xl? 
K(x; xj) = exp (一 UA 3 


sigmoid 核 函数 让 SVM 实现 了 类 似 多 层 神经 网 络 的 效果 ， 其 表达 式 为 
K(x; xj) = tanh(fix;*x; + 0) 

采用 sigmoid 核 函数 时 ， 不 仅 使 得 SVM 能 够 实现 类 似 多 层 神经 网 络 的 计算 效果 ， 而 且 
不 会 出 现 过 学 习 现象 ， 因 为 SVM 的 理论 基础 决定 了 最 终 求 得 的 是 全 局 最 优 值 而 不 是 局 部 
最 小 值 。 

支持 向 量 机 主要 用 于 解决 分 类 问题 ， 特 别 是 非 线性 以 及 高 维度 的 样本 的 分 类 问题 。 
在 接 下 来 的 章节 中 ， 将 具体 使 用 SVM 算法 来 解决 线性 模型 中 的 问题 以 及 更 高 维度 的 分 类 
问题 。 


EJ 拟 合 线性 回归 ^ 


在 前 一 章 中 ， 我 们 使 用 TensorFlow， 通 过 采用 最 小 化 均 方 误差 的 方法 实现 了 对 已 知 点 
的 线性 拟 合 。 在 本 节 中 将 使 用 SVM 算法 思想 来 完成 线性 回归 拟 合 。 

我 们 拟 合 的 直线 使 SVM 的 最 大 间距 能 够 尽 可 能 多 地 包含 已 知 点 ， 且 我 们 认为 被 包含 
的 已 知 点 的 损失 为 0， 损 失 函 数 可 表示 为 : 


max(0, |y; — (wTx + b)| — 2 
接 下 来 ， 使 用 TensorFlow 具 体 实现 SVM 的 拟 合 线性 回归 。 


EExI 生成 训练 数据 


首先 ， 模 拟 生 成 训练 数据 。 我 们 构造 满足 y=3x+5 关 系 的 若干 个 点 ， 并 在 构造 过 程 中 加 
入 一 些 偏差 噪声 点 ， 具 体 实现 如 下 : 


01 import os 
02 os.environl'TF CPP MIN LOG LEVEL7 = '2' 


03 importtensorflow as tf 

04 import matplotlib.pyplot as plt 

05 import numpy as np 

06 np.set printoptions(threshold-'nan') 


07 t x7 np.linspace(-1,1,50,dtype = np.float32) 
08 noise = np.random.normal(0 , 0.05 , t x.shape) 


09 t y=t x*3.0*5.0*noise 
10 plt.plot(t x,t. y,'k." 
11 plt.show() 


# 用 于 模型 训练 

# 用 于 绘制 图 形 

# 用 于 科学 计算 

替 J 印 内 容 不 限 长 度 
# 生 成 x 

# 生 成 噪声 点 

# 生 成 y 

SEI 


运行 代码 ， 可 以 看 到 随机 产生 的 训练 数据 ， 如 图 5.2 所 示 。 


-1.00 -0.75 -0.50 -0.25 000 025 


图 5.2 ”训练 数据 
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完成 训练 数据 的 生成 后 ， 我 们 来 实现 线性 回归 的 训练 模型 。 在 前 一 章 的 线性 模型 中 ， 


01 x = tf.placeholder(tf.float32) 
02 y = tf.placeholder(tf.float32) 
03 a - tf. Variable(0.0) 

04 b= tf. Variable(0.0) 

05 cur y=x*a+b 

06 epsilon-tf.constant([0.25]) 
07 # 损 失 函 数 


我 们 选择 的 损失 函数 是 最 小 化 均 方 误差 ， 而 在 SVM 模 型 中 ， 选 择 的 损失 函数 是 间距 最 小 
值 ， 具 体 实现 如 下 。 


# 占 位 符 
# 变 量 节点 


# 线 性 模型 
# 拟 定 间隔 宽度 


08 loss-tf.reduce sum( tf.maximum(0.,tf.subtract( tf.abs(tf.subtract(curr_y,y)),epsilon))) 
09 optimizer = tf.train.GradientDescentOptimizer(learning rate) 


10 train = optimizer.minimize(loss) 


[5.2.3] 进行 数据 训练 


州 川 练 的 结果 是 使 损失 函数 最 小 


接 下 来 进行 正式 的 数据 训练 。 总 共 训 练 1000 次 ， 每 次 的 学 习 率 为 0.001。 为 了 便于 查 
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看 训练 过 程 ， 每 训练 完成 20 次 ， 就 输出 当前 的 训练 次 数 、a、b 以 及 损失 值 ， 最 终 绘制 训练 
集 的 点 和 拟 合 的 直线 ， 具 体 实现 如 下 : 


01 learning_rate=0.001 # 学 习 率 

02 training_epochs=1000 HERR 

03 sess = tf.Session() # 创 建 Session 
04 sess.run(tf.global_variables_initializer()) # 变 量 初 始 化 
05 for i in range(training epochs): 

06  sess.run(train, bct. x, y:t. y]) # 从 训练 集中 开始 训练 
07 ifi% 20==0: 

08 print (i,sess.run([a,b,loss],{x:t_x, yt y])) 

09 a_val=sess.run(a) 

10 b val-sess.run(b) 

11 print("this model is yz"a val," *x-"b val) 

12 sess.close() # 关 闭 

13 y learned-t x*a val*b val 

14 plt.plot(t x,t. y,'k.") # 绘 制 点 

15 plt.plot(t x,y. learned,'g-") # 绘 制 线 

16 linewidth=sess.run(epsilon) # 获 取 间 距 


17 plt.plot(t_x,y_learned+linewidth,'r——'") 
18 plt.plot(t_x,y_learned-linewidth,'r--') 
19 plt.show() 
20 plt.close() 


EEX] 26556 
经 过 以 上 步骤 ， 我 们 可 以 看 到 在 训练 过 程 中 拟 合 值 的 变化 情况 如 图 5.3 中 的 左 图 所 
示 。 已 知 点 和 拟 合 的 线条 绘制 如 图 5.3 中 的 右 图 所 示 。 


0 [0.0, 0.050000001, 222.71872] 

20 [0.0, 1.0500001, 172.71872] 

40 [0.025061226, 2.0239997, 125.25589] 
60 [0.16569388, 2.8609998, 89.145157] 
80 [0.43497968, 3.5199993, 63.718941] 
100 [0.78942859, 4.0299993, 44.387306] 
120 [1.1972448, 4.3989992, 29.227699] 
140 [1.6245914, 4.6629992, 16.604044] 
160 [2.0260401, 4.868, 6.4377618] 

180 [2.3225095, 4.9649987, 1.476216] 
200 [2.4613671, 5.0129986, 0.23773324] 
220 [2.5267131, 5.0029993, 0.00077986717] 
240 [2.5285907, 5.0029993, 0.0] 

260 [2.5285907, 5.0029993, 0.0] 

280 [2.5285907, 5.0029993, 0.0] 

300 [2.5285907, 5.0029993, 0.0] 

320 [2.5285907, 5.0029993, 0.0] 

340 [2.5285907, 5.0029993, 0.0] 

360 [2.5285907, 5.0029993, 0.0] 

380 [2.5285907, 5.0029993, 0.0] 

400 [2.5285907, 5.0029993, 0.0] 


r r Y r r Y 
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图 5.3” 拟 合 结果 输出 


从 图 5.3 的 右 图 中 ， 我 们 可 以 直观 地 感受 到 拟 合 直线 与 已 知 点 的 误差 较 大 。 


第 5 章 支持 向 量 机 


在 定义 模型 时 ， 将 拟定 的 间距 宽度 值 调 小 ， 再 次 进行 训练 。 训 练 对 比 结果 如 图 5.4 
所 示 。 


this model is y= 2.53512 * x 5.01499 this model is y= 2.76427 * x + 4.983 


2] Z 
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图 5.4 调整 间距 宽度 值 后 进行 对 比 输出 
可 以 很 明显 地 看 到 ， 将 间距 宽度 值 调 小 之 后 拟 合 直线 的 误差 更 小 。 
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SVM 算法 的 提出 主要 是 为 了 解决 “是 ”与 “和 否 ”这 样 的 二 值 分 类 问题 ， 这 与 我 们 前 
一 章 中 讲解 的 逻辑 回归 算法 一 样 都 用 于 进行 二 值 预测 。 在 本 节 中 ， 将 使 用 SVM 算法 思想 
来 完成 线性 条 件 下 的 分 类 。 

我 们 知道 支持 向 量 机 就 是 希望 找到 满足 分 类 条 件 yi(wTx + b) 三 1 并 且 将 间距 ||wl|? 最 
大 化 的 超 平面 ， 这 样 对 于 n 个 数据 点 的 损失 函数 如 下 : 


n 
1 
"zd — y. Co. 2 
3X a yi (ot x + b)) + a||ol] 
Ha 


数据 点 分 割 正确 时 ，yi(wTx+b) 总 大 于 1， 所 以 左 项 取 的 最 大 值 会 是 9。 这 种 情况 
下 ， 损 失 函 数 只 与 间距 的 大 小 有 关 。 同 时 ， 拟 合 的 分 类 直线 也 允许 存在 误差 点 ， 该 点 跨越 
了 分 类 直线 。a 值 越 大 ， 模 型 就 会 倾向 于 尽量 将 样本 分 割 开 ，a 值 越 小 ， 就 会 有 更 多 的 误差 
点 存在 。 

接 下 来 ， 我 们 使 用 TensorFlow 具 体 实现 SVM 的 逻辑 分 类 。 


Eaa 生成 训练 数据 


对 于 训练 数据 ， 我 们 通过 模拟 生成 。 随 机 获取 150 个 点 ， 如 果 所 获取 点 的 横 纵 轴 的 计 
算 值 x1*2+x2 小 于 或 等 于 1， 则 标记 为 0， 如 果 该 计算 值 大 于 1， 则 标记 为 1。 对 这 些 点 进行 
随机 噪声 化 ， 具 体 实现 如 下 : 
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01 import tensorflow as tf 

02 import matplotlib.pyplot as plt 

03 import numpy as np 

04 # 声 明 数 据 数 组 和 标签 

05 data=[] 

06 label=[] 

07 np.random.seed(0) 

08 兰 随 机 产生 训练 集 

09 foriin range(150): 

10  x1-np.random.uniform(-1,1) 
11  x2-np.random.uniform(0,2) 

12  ifx1*2-x2«-1: 

13 data.append([np.random.normal(x1,0.1),np.random.normal(x2,0.1)]) 
14 label.appena(0) 

15 plt.plot(x1,x2,'go") 

16 else: 

17 data.append([np.random.normal(x1,0.1),np.random.normal(x2,0.1)]) 
18 label.append(1) 

19 plt.plot(x1,x2,'r**) 

20 #HRRER 

21 data-np.hstack(data).reshape(- 1,2) 
22 label-np.hstack(label).reshape(- 1,1) 
23 plt.show() 


运行 代码 ， 可 以 看 到 随机 产生 的 训练 数据 ， 如 图 5.5 所 示 。 
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图 5.5 训练 数据 


[5.3.2] 定义 训练 模型 


前 面 介绍 了 算法 中 的 损失 函数 ， 如 下 所 示 : 


n 
1 
=Y max(0,1 — yox + b)) + allo? 
i=1 


依据 该 函数 ， 训 练 模型 的 具体 实现 如 下 : 


01 
02 
03 
04 
05 
06 


08 
09 
10 
11 
12 
13 
14 
15 
16 
17 
18 


HENTE 

x=tf.placeholder(tf.float32,shape=(None,2)) 

y. 7tf.placeholder(tf.float32,shape-(None, 1)) 

W = tf. Variable(tf.zeros([2, 1])) 

b = tf. Variable(tf.zeros([1])) 

# 线 性 平面 

y = (tf.matmul(x, W) + b) 

## 计 算 L2 范 数 

I2 norm = tf.reduce sum(tf.square(W)) 

# 损 失 函 数 

alpha = tf.constant([0.1]) 

classification term = tf.reduce mean(tf.maximum(O., tf.subtract(1., tf.multiply(y, y. )))) 
cross entropy = tf.add(classification term, tf.multiply(alpha, I2. norm)) 

# 优 化 器 

learning rate = 0.01 # 学 习 率 

cost prev-0 

train. step = tf.train.GradientDescentOptimizer(learning. rate).minimize(cross entropy) 
init = tf.global variables initializer() 
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接 下 来 进行 正式 的 数据 训练 ， 获 取 最 终 的 w 和 2 值 ， 具 体 实 现 如 下 : 


01 
02 


Sess - tf.Session() 
sess.run(init) 


03 for i in range(4000): 


04 
05 
06 
07 
08 
09 
10 
11 
12 
13 


sess.run(train step, feed dict-[x:data, y :label)) 
train cost-sess.run(cross entropy, feed dict-(x:data, y. :label)) 
loss vec.append(train cost) 
if i % 2007-0: 
print (i,sess.run([W,b,cross_entropy],{x:data, y_:label})) 
if np.abs(cost prev-train cost)«1e-6: 
print (the step:'i,sess.run((W,b,cross entropy],(x:data, y :label])) 
break 
else: 
cost prev-train cost 


14 ACERRA. HE 
15 W_val=sess.run(W) 
16 b_val=sess.run(b) 
17 sess.close() 


运行 上 述 代码 ， 可 以 看 到 在 训练 过 程 中 拟 合 值 的 变化 情况 ， 如 图 5.6 所 示 。 


8 [array([[ 0.00218556], 

[ 0.00571393]], dtype-float32), array([ 0.0046], dtype-float32), array([ 9.99414521]，dtype=float32)] 
200 [array([[ 6.21101537], 

[ 0.42050943]], dtype-float32), array([ 9.5544008], dtype-float32), array([ 0.5771203], dtype-float32)] 
400 [array([[ 0.20731157], 

[ 0.32980821]], dtype-float32), array([ 0.71160084], dtype-float32), array([ 0.55983382], dtype-float32)] 
600 [array([[ 6.17950094], 

[ 0.23625083]], dtype-float32), array([ 0.80026525], dtype-float32), array([ 0.55095559], dtype-float32)] 
800 [array([[ 6.14766704], 

[ 0.16895162]], dtype-float32), array([ 0.86692709], dtype-float32), array([ 0.54592812], dtype-float32)] 
1000 [array([[ 0.11682301], 

[ 0.12141257]], dtype-float32), array([ 0.91679257], dtype-float32), array([ 0.54303926], dtype-float32)] 
1200 [array([[ 0.08591554], 

[ 0.08741403]], dtype-float32), array([ 0.94512248], dtype-float32), array([ 0.54153496], dtype-float32)] 
1400 [array([[ 0.0623391 ], 

[ 0.06149883]], dtype-float32), array([ 0.96118468], dtype-float32), array([ 0.54078603], dtype-float32)] 
1600 [array([[ 0.04599848], 

[ 9.043007 ]], dtype-float32), array([ 0.97391254], dtype-float32), array([ 0.54039657], dtype-float32)] 
the step: 1664 [array([[ 0.04148404], 

[ 0.038268 ]], dtype-float32), array([ 0.97657806], dtype-float32), array([ 0.54031855], dtype-float32)] 


图 5.6 ” 拟 合 值 的 变化 情况 
[5.3.4 运行 总 结 


经 过 以 上 步 又 后 ， 我 们 完成 了 训练 。 为 了 更 直观 地 看 到 最 终 的 训练 结果 ， 绘 制 模拟 的 
散 点 图 和 拟 合 的 直线 ， 具 体 实现 如 下 。 


01 # 绘 制 直线 和 散 点 图 

02 w1=W_val[0,0] 

03 w2=W_val[1.0] 

04 k=-w1/w2 

05 b=b_val 

06 xx-np.linspace(-1,1.2,100) 
07 yy=k*xx+b 

08 plt.plot(xx,yy) 

09 for iin range(150): 

10  if(label[i]--0): 

11 plt.plot(data[i](O],data[i][1],'go") 


12 else: 
13 plt.plot(data[i](0], data[i] 1], r**) 
14 plt.show() 


运行 上 述 代码 ， 绘 制 拟 合 的 直线 和 模拟 的 散 点 图 ， 如 图 5.7 所 示 。 
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857 将 结果 可 视 化 输出 


SVM 算法 和 第 4 章 中 的 逻辑 回归 算法 虽然 都 进行 二 值 预测 ， 但 逻辑 回归 算法 试图 找 
到 回归 直线 来 最 大 化 概率 ，SVM 算 法 试图 最 小 化 误差 并 最 大 化 它们 之 间 的 间隔 。 一 般 来 
说 ， 如 果 一 个 问题 的 训练 集中 有 大 量 特征 ， 建 议 使 用 逻辑 回归 ; 而 如 果 训 练 集 的 数据 量 更 
大 或 者 数据 集 是 非 线性 可 分 的 ， 建 议 使 用 带 核 函数 的 SVM 算法 。 


在 前 面 的 章节 中 ， 我 们 使 用 SVM 方式 对 线性 可 分 的 情况 进行 了 处 理 。 在 本 节 中 ， 将 
通过 高 斯 核 函 数 对 高 尾 花 数据 集 这 样 的 非 线 性 数据 进行 分 类 ， 以 区 分 是 否 是 山高 尾 。 


[5.4.1 ER 


iris 也 称 划 尾 花 数 据 集 ， 是 常用 的 分 类 实验 数据 集 。 该 数据 集 包 括 花 苯 长 度 、 花 
苯 宽 度 、 花 办 长 度 和 花瓣 宽度 四 个 属性 ， 以 及 用 于 标识 意 尾 花 属于 Setosa( 山 总 尾 )、 
Versicolour( 杂 色 欧 尾 ) 和 Virginica( 维 吉 尼 亚 高 尾 ) 三 个 种 类 中 哪 一 类 的 标签 。 

scikit learn 的 datasets 模 块 中 包括 对 该 数据 集 的 加 载 使 用 ， 一 共有 150 组 数据 。data 中 保 
存 了 属性 信息 ， 分 别 是 花 苯 长 度 、 花 苯 宽 度 、 花 为 长 度 和 花 为 宽度 。target 中 保存 了 类 型 
标签 ， 分 别 用 0、1、2 代 表 Setosa、Versicolour、Virginica 三 种 类 型 的 花 。 菩 尾 花 数 据 集 如 
图 5.8 所 示 。 


[ E data - Numby amy 


图 5.8 营 尾 花 数据 集 


作为 二 值 分 类 ， 我 们 使 用 该 数据 集中 的 花 苯 长 度 和 花 苯 宽度 作为 特征 ， 将 是 否 为 山 
总 尾 作为 数据 的 标签 。 对 原始 这 尾 花 数 据 集 提取 两 个 特征 值 并 对 标签 进行 处 理 ， 有 具体 实 


01 import matplotlib.pyplot as plt 

02 import numpy as np 

O3 import TensorFlow as tf 

04 from sklearn import datasets S5 NSSEEGERUR SE 
05 from TensorFlow.python.framework import ops 

06 ops.reset default graph() 

07 from pylab import mpl 

08 mpl.rcParams[font.sans-serif] = [SimHei] 

09 shnsiristids SE, ESKES REANA vals, YetasEGEAy vals 
10 iris = datasets.load iris() 

11 x vals = np.array(([x[0], x(1]] for x in iris.data]) 

12 y vals 7 np.array([1 if y==0 else -1 for y in iris.target]) 

13 # 将 数据 按照 是 否 为 山 萤 尾 分 为 两 类 ， 便 于 后 期 绘图 

14 dass1 x [x[0] for i,x in enumerate(x vals) if y vals[i]-71] 

15 class1 y = [x[1] for i,x in enumerate(x. vals) if y vals[i]-71] 

16 class2 x- [x[0] for i,x in enumerate(x vals) if y. vals[i]-7-1] 

17 dass2 y = [x(1] for i,x in enumerate(x vals) if y. vals[i]-7- 1] 


[5.4.2 sem 
本 节 使 用 高 斯 核 函 数 SVM 来 完成 非 线性 分 类 ， 高 斯 核 函 数 的 表达 式 为 : 
E 2 
K(x; xj) = exp CE 


而 相应 的 损失 函数 使 用 对 偶 优化 ， 其 表达 式 为 :; 


n n n 
1 
EE bi — E X yibi(x; : xy)y;bj 


i21 j=1 


其 中 : 
ED H 0b, 
i S i 2ny 


依据 高 斯 核 函 数 以 及 损失 函数 ， 定 义 训练 模型 的 具体 实现 如 下 : 


01 batch_size = 100 

02 x data = tf.placeholder(shape-[None, 2], dtype=tf.float32) 

03 y target = tf.placeholder(shape-[None, 1], dtype-tf.float32) 

04 prediction grid = tf.placeholder(shape-[None, 2], dtype-tf.float32) 
05 b= tf. Variable(tf.random normal(shape-[1,batch size])) 

06 # 高 斯 核 函 数 只 依赖 Xx_data 

07 gamma - tf.constant(- 10.0) 

08 dist = t.reduce sum(tf.square(x data), 1) 

09 dist  tf.reshape(dist, [-1,1]) 

10 sq dists = tf.multiply(2., tf.matmul(x data, tf.transpose(x data))) 
11 my. kernel = tf.exp(tf.multiply(gamma, tf.abs(sq dists))) # 高 斯 核 函数 
12 s 损失 函数 ， 分 别 计算 前 后 两 部 分 


NEEDS 


13 model output-tf.matmul(b,my. kernel) 

14 first term-tf.reduce sum(b) 

15 b vec corss-tf.matmul(tf.transpose(b),b) 

16 y target cross-tf.matmul(y target,tf.transpose(y target)) 

17 second term-tf.reduce sum(tf.multiply(my kernel,tf.multiply(b vec corss,y target cross))) 
18 # 损 失 函 数 被 最 小 化 ， 对 计算 公式 取 负 数 

19 loss-tf.negative(tf.subtract(first term,second term)) 

20 my opt tf.train.GradientDescentOptimizer(0.01) 

21 train step = my opt.minimize(loss) 


[5.4.3 进行 数据 训练 


为 了 能 够 直观 地 看 到 训练 结果 ， 需 要 记录 每 次 迭代 的 损失 向 量 、 准 备 度 以 及 最 终 使 
模型 进行 训练 的 预测 标签 值 。 预 测 函 数 用 于 计算 根据 模型 计算 输出 的 标签 值 ， 用 于 后 期 


用 
绘 


制图 形 。 预 测 核 函 数 与 前 面 的 类 似 ， 只 是 使 用 预测 数据 点 的 标签 值 代替 了 真实 数据 点 的 标 


签 值 ， 具 体 实现 如 下 。 


01 # 预 测 核 函 数 

02 rA=tf.reshape(tf.reduce_sum(tf.square(x_data), 1),[-1,1]) 

03 rB = tf.reshape(tf.reduce sum(tf.square(prediction grid), 1),[-1,1]) 

04 pred sq dist = tf.add(tf.subtract(rA, tf.multiply(2., tf.matmul(x data, 
tf.transpose(prediction grid)))), tf.transpose(rB)) 

05 pred kernel = tf.exp(tf.multiply(gamma, tf.abs(pred sq dist))) 

06 # 实现 预测 核 函 数 后 ， 创 建 预测 函数 

07 prediction output = tf.matmul(tf.multiply(tf.transpose( y. target),b), pred kernel) 

08 prediction = tf.sign(prediction output-tf.reduce mean(prediction output)) 

09 accuracy = tf.reduce mean(tf.cast(tf.equal(tf-.squeeze(prediction), 
tf.squeeze(y. target)), tf.float32)) 

10 init = tf.global variables initializer() 

11 sess.run(init) 

12 for iin range(300): 

13 rand index = np.random.choice(len(x vals), size-batch size) 

14 rand x- x vals[rand index] 

15 rand y- np.transpose([y. vals[rand index]]) 

16  sess.run(train step, feed dict-[x data:rand x, y target: rand y]) 

17 temp loss = sess.run(loss, feed dict-(x data: rand x, y. target: rand y]) 

18  if(i*1)9620--0: 

19 print(the step:'i,str(temp loss)) 


运行 上 述 代码 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 。 


| 5.4.4| 运行 总 结 


经 过 以 上 步 又 后 ， 我 们 完成 了 训练 。 为 了 更 直观 地 看 到 最 终 的 训练 结果 ， 绘 制 真 实 的 


数据 点 图 ， 并 依据 模型 的 预测 结果 实现 颜色 标识 ， 具 体 实 现 如 下 。 
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01 # 依 据 真 实数 据 集 ， 标 记 绘图 范围 

02 x min, x max = x_vals[:, O].min() - 1, x vals[:, 0].max() + 1 

03 y min, y max = x vals[;, 1].min() - 1, x vals[:, 1.max() + 1 

04 xx, yy = np.meshgrid(np.arange(x min, x max, 0.02), 
np.arange(y min, y max, 0.02)) 

05 # 获 取 模型 预测 结果 标识 

06 grid points = np.C_[xx.ravel(), yy.ravel()] 

07 grid predictions 7 sess.run(prediction, 

feed dict-[x data: rand x, y target:rand y,prediction grid: grid points)) 

08 grid predictions = grid. predictions.reshape(xx.shape) 

09 # 绘 制图 形 

10 plt.contourf(xx, yy, grid predictions, cmap=plt.cm.Paired, alpha=0.8) 

11 pit.plot(class1 x, class y, ro) 

12 plt.plot(class2 x, class2 y, 'kx') 

13 plttitle(SVM 营 尾 花 二 分 类 ) 

14 plt.ylim(1, 5.0]) 

15 plt.xlim([3.5, 8.5]) 

16 plt.show() 


运行 上 述 代 码 可 以 直观 地 看 到 结果 ， 如 图 5.9 所 示 。 图 5.9 中 的 点 为 山 葛 尾 ，x 为 非 山 间 
尾 。 使 用 模型 进行 预测 后 ， 用 不 同 颜色 对 结果 进行 展示 ， 从 而 实现 非 线性 划分 。 


SVM8 EAE — 4135 


图 5.9 ZREZKI Hn 


同时 ， 也 可 以 很 明显 地 看 出 划分 边界 连续 ， 且 弯曲 程度 较 平滑 。 数 据 集 的 分 割 弯 曲 部 
分 受 高 斯 核 中 的 gamma 值 直接 影响 。 如 果 将 训练 过 程 中 定义 的 值 由 10 调 整 为 100， 则 训练 
结果 如 图 5.10 所 示 。 


SVM 这 尾 花 二 分 类 


图 5.10 调整 后 的 可 视 化 输出 


EJ 非 线性 多 类 分 类 f 


fES.A h, RINEL ien JUPE ERROR DO S5 EEA Her oS E. BRIEG E 
A68 SE pc T ZARRAK SE EE. ER USERS FH SVMSTIIOK SCIL RETE RE 
分 类 。 

SVM 算法 最 初 被 设计 为 一 种 二 值 分 类 器 ， 可 以 使 用 一 些 方法 使 其 能 够 实现 多 类 分 
类 。 主 要 有 两 种 方法 ， 分 别 是 “一 对 一 ”方法 和 “一 对 多 ”方法 。 

“一 对 一 ”方法 指 的 是 在 任意 两 类 样本 之 间 创 建 一 个 二 值 分 类 器 。 预 测 类 别 时 ， 正 
确 率 最 高 的 类 别 便 是 该 位 置 样本 的 预测 类 别 。 如 果 类 别 为 k， 就 必须 创建 kW/(k-2)!2! 个 分 类 
器 ， 当 k 值 变 大 时 ， 计 算 代 价 也 变 大 。 

“一 对 多 ”方法 指 的 是 为 每 一 类 样本 创建 一 个 分 类 器 。 最 终 的 预测 类 别 是 具有 最 大 
SVM 间隔 的 类 别 。 

在 本 节 中 将 使 用 “一 对 多 ”方法 对 营 尾 花 数据 集中 的 三 种 营 尾 花 进行 区 别 。 


[5.5.1 生成 训练 数据 


对 于 高 尾 花 数 据 集 ， 因 为 被 分 为 三 类 ， 所 以 使 用 “一 对 多 ”方法 时 需要 创建 三 个 分 类 
器 。 我 们 采用 花 苯 长 度 和 花 苯 宽度 作为 两 个 特征 ， 另 外 需要 创建 三 个 标签 值 ， 分 别 标识 是 
否 为 山 膏 尾 、 是 否 为 杂 色 过 尾 以 及 是 否 为 维 吉 尼 亚 膏 尾 ， 有 具体 实现 如 下 。 


01 import matplotlib.pyplot as plt 
02 import numpy as np 


03 import tensorflow as tf 

04 from sklearn import datasets SSINSETUESE 
05 from TensorFlow.python.framework import ops 

06 ops.reset default graph() 

07 from pylab import mpl 

08 mpl.rcParams[font.sans-serif] = [SimHei] # 引 入 绘图 显示 中 文 
09 #0 载 iris 数 据 集 ， 将 花 区 长 度 和 花 荨 宽度 两 个 特征 存 入 x_vals 

10 iris = datasets.load iris() 

11 x vals = np.array([[x(0], x(1]] for x in iris.data]) 

12 # 对 三 个 分 类 器 的 标签 值 进行 保存 ， 并 以 此 构建 y_vals 和 矩阵 

13 y_vals1 = np.array([1 if y==0 else -1 for y in iris.target]) 

14 y vals2 = np.array([1 if y==1 else -1 for y in iris.target]) 

15 y vals3 = np.array([1 if y==2 else -1 for y in iris.target]) 

16 y. vals = np.array([y. vals1, y. vals2, y. vals3]) 

17 # 将 数据 按照 营 尾 花 类 型 分 为 三 类 ， 便 于 后 期 绘图 

18 classi x- [x[0] for i,x in enumerate(x_vals) ifiris.target 由 ==0] 
19 class1 y = [x(1] for i,x in enumerate(x vals) if iris.target(i]--0] 
20 class2 x- [x[0] for ix in enumerate(x vals) if iris.target(i]-71] 
21 class2 y = [x[1] for ix in enumerate(x vals) if iris.target[i]-71] 
22 class3 x = [x[0] for ix in enumerate(x vals) if iris.target(i]-—2] 
23 class3 y = [x(1] for ix in enumerate(x vals) if iris.target(i]-—2] 


EEE cues 


使 用 高 斯 核 函 数 SVM 来 完成 训练 模型 的 定义 ， 具 体 实现 如 下 。 


01 batch_size = 50 

02 x data - tf.placeholder(shape-[None, 2], dtype-tf.float32) 

03 y target = tf.placeholder(shape-[3, None), dtype-tf.float32) 

04 prediction grid = tf.placeholder(shape-[None, 2], dtype-tf.float32) 

05 b= tf.Variable(tf.random normal(shape-([3,batch. size])) 

06 # 高 斯 核 函 数 只 依赖 x_data 

07 gamma - tf.constant(-50.0) 

08 dist = tf.reduce sum(tf.square(x data), 1) 

09 dist = tf.reshape(dist, [-1,1]) 

10 sq dists = tf.multiply(2., tf.matmul(x_data, tf.transpose(x data))) 

11 my. kernel = tf.exp(tf.multiply(gamma, tf.abs(sq dists))) # 高 斯 核 

12 HEBR SEHE 

13 defreshape matmul(mat): 

14  v1-tfexpand dims(mat, 1) 

15  v2-tf.reshape(v1, [3, batch size, 1]) 

16  return(tf.matmul(v2, v1)) 

17 # 损 失 函 数 

18 first term = tf.reduce_sum(b) 

19 b vec cross - tf.matmul(tf.transpose(b), b) 

20 y target cross = reshape matmul(y target) 

21 second term = tf.reduce sum(tf.multiply(my. kernel, tf.multiply(b vec cross, 
y. target. cross)),[1,2]) 

22 loss = tf.reduce sum(tf.negative(tf.subtract(first term, second term))) 


INCEST 


5.5.3 eT 
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预测 时 ， 由 于 类 别 的 判断 是 根据 具有 最 大 SVM 间隔 的 类 别 进行 的 ， 因 此 使 用 argmax(0) 来 实 
现 该 功能 。 在 训练 过 程 中 ， 对 每 次 迭代 的 损失 向 量 、 准 备 度 以 及 最 终 使 用 模型 进行 训练 的 


预测 标签 值 等 信息 进行 保存 ， 具 体 实现 如 下 。 


01 
02 
03 


# 创 建 预测 核 函 数 
rA = tf.reshape(tf.reduce sum(tf.square(x data), 1),[71,1]) 
rB = tf.reshape(tf.reduce sum(tf.square(prediction grid), 1),[-1,1]) 
pred sq dist = tf.add(tf.subtract(rA, tf.multiply(2., tf.matmul(x data, 
tf.transpose(prediction grid)))), tf-transpose(rB)) 
pred kernel = tf.exp(tf.multiply(gamma, tf.abs(pred sq dist))) 
# 创 建 预测 函数 
prediction_output = tf.matmul(tf.multiply(y_target,b), pred kernel) 
prediction = tf.arg_max(prediction_output— 
tf.expand_dims(tf.reduce_mean(prediction_output, 1), 1), 0) 
accuracy = tf.reduce mean(tf.cast(tf.equal(prediction, tf.argmax(y_target,0)), tffloat32)) 
my. opt = tf.train.GradientDescentOptimizer(0.01) 
train step = my. opt.minimize(loss) 
init = tf.global variables initializer() 
sess.run(init) 
loss vec = [] 
batch. accuracy = [] 
for i in range(300): 
rand index = np.random.choice(len(x vals), size-batch size) 
rand x- x vals[rand index] 
rand y = y vals[;rand index] 
sess.run(train step, feed dict-[x data: rand x, y. target: rand y]) 
temp. loss = sess.run(loss, feed dict-(x data: rand x, y. target: rand. y) 
if (i 1)9620--0: 
print(the step:'i,str(temp loss)) 


运行 上 述 代码 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 ， 如 图 5.11 所 示 。 


the step: 19 -294.632 
the step: 39 -564.632 
the step: 59 -834.632 
the step: 79 -1164.63 
the step: 99 -1374.63 
the step: 119 -1644.63 
the step: 139 -1914.63 
上 the step: 159 -2184.63 
the step: 179 -2454.64 
the step: 199 -2724.64 
the step: 219 -2994.64 
the step: 239 -3264.64 
the step: 259 -3534.64 
the step: 279 -3804.64 
the step: 299 -4074.64 


图 5.11 损失 值 的 变化 情况 
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[5-5.4 运行 总 结 


经 过 以 上 步 又 后 ， 我 们 完成 了 训练 。 为 了 更 直观 地 看 到 最 终 的 训练 结果 ， 需 要 绘制 真 
实 的 数据 点 图 ， 并 依据 模型 的 预测 结果 实现 颜色 标识 ， 具 体 实 现 如 下 。 


01 # 创建 数据 点 的 预测 网 格 ， 运 行 预测 函数 

02 x min, x max = x vals[;, O].min() - 1, x_vals[:, 0].max() + 1 

03 y min, y. max = x. vals[;, 1].min() - 1, x vals[:, 1].max() + 1 

04 xx, yy = np.meshgrid(np.arange(x min, x max, 0.02), np.arange(y. min, y max, 0.02)) 

05 grid points = np.c [xx.ravel(), yy.ravel()] 

06 grid predictions = sess.run(prediction, feed dict-(x data: rand x,y target:rand y, 
prediction grid: grid. points)) 

07 grid predictions = grid. predictions.reshape(xx.shape) 

08 plt.contourf(xx, yy, grid predictions, cmap-plt.cm.Paired, alpha=0.8) 

09 plt.plot(class1 x,class1 y, 'ro', label-'l. setosa") 

10 plt.plot(class2. x, class2 y, 'kx', label-'l. versicolor’) 

11 plt.plot(class3 x, class3 y, 'gv', label-'l. virginia") 

12 plttitle('SVM 实 现 营 尾 花 分 类 ) 

13 plt.legend(loc-'lower right") 

14 plt.ylim([-0.5, 3.0]) 

15 plt.xlim([3.5, 8.5]) 

16 plt.show() 


运行 上 述 代码 ， 可 以 直观 地 看 到 结果 ， 如 图 $.12 所 示 。 
SVM 实现 瘟 尾 花 分 类 


4 5 6 7 8 
55.12 ” 营 尾 花 分 类 的 可 视 化 


在 本 节 中 ， 我 们 实现 了 将 营 尾 花 数据 集 一 次 性 划分 为 三 类 的 分 类 计算 。 

可 以 看 出 ， 所 选取 的 特征 是 花 划 长度 和 花 苯 宽度 ， 在 进行 是 否 为 山 营 尾 的 二 值 分 类 
时 ， 通 过 它们 能 够 很 好 地 区 别 出 山 索 尾 。 但 在 对 山 这 尾 、 杂 色 营 尾 、 维 吉 尼 亚 意 尾 三 种 分 
类 进行 区 别 时， 选择 的 特征 已 经 出 现 了 大 量 的 数据 交叉 ， 很 难 进行 有 效 的 分 类 。 在 对 营 尾 


花 数 据 集 进行 分 类 时 ， 可 以 考虑 将 花 苯 和 人 花瓣 的 属性 作为 特征 进行 分 类 ， 这 会 取得 不 错 的 
效果 。 


第 5 章 支持 向 量 机 


本 章 主要 讲解 了 TensorFlow 中 支持 向 量 机 的 用 法 、 基 本 原理 及 核 函 数 。 另 外 ， 还 讲 
解 了 使 用 SVM 完 成 线性 回归 拟 合 和 风 辑 回归 分 类 。 对 于 非 线性 数据 的 二 值 分 类 和 多 类 分 
类 ， 介 绍 了 一 些 具体 应 用 。 


第 6 章 


神经 网 络 


神经 网 络 是 TensorFlow 最 擅长 的 机 
器 学 习 领 域 ， 也 是 当前 机 器 学 习 应 用 中 
最 流行 的 算法 。 在 本 章 中 ， 我 们 将 详细 
介绍 神经 网 络 的 原理 以 及 基础 神经 网 
络 、 卷 积 神经 网 络 和 循环 神经 网 络 等 常 
用 的 神经 网 络 算法 。 


— 
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神经 网 络 简介 


人 工 神经 网 络 (Artificial Neural Network，ANN) 是 指 从 信息 处 理 的 角度 对 人 脑 神 经 元 系 
统 进 行 模拟 ， 建 立 处 理 模型 。 因 此 ， 神 经 网 络 模 型 是 一 种 信息 处 理 模型 ， 由 大 量 的 神经 元 
节点 相互 连接 而 成 ， 如 图 6.1 所 示 。 


> 


隐 层 
图 6.1 神经 网 络 模型 


图 6.1 中 的 每 个 圆圈 都 是 一 个 神经 元 ， 每 条 线 表示 神经 元 之 间 的 连接 。 其 中 ， 神 经 元 
可 以 被 分 成 多 层 ， 层 与 层 之 间 的 神经 元 有 连接 ， 而 层 内 之 间 的 神经 元 没有 连接 。 最 左边 的 


ss 


层 称 为 输入 层 ， 该 层 负 责 接收 输入 数据 ;最 右边 的 层 称 为 输出 层 ， 可 以 从 该 层 获取 神经 网 
络 的 输出 数据 。 输 入 层 和 输出 层 之 间 的 层 称 为 隐 层 ， 用 于 进行 具体 的 运算 处 理 。 
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19434, Warren McCulloch 和 Walter Pitts 提 出 了 MP 神经 元 模型 ， 该 模型 一 直 沿 用 至 
今 ， 如 图 6.2 所 示 。 


» 


图 6.2 ”MP 神经 元 模型 
在 神经 元 模型 中 ， 神 经 元 接收 来 自 x 个 其 他 神经 元 传递 过 来 的 输入 信息 (coach)， 
这 些 信息 通过 带 有 权 值 的 连接 线 (wi,w,,w;,…,w,) 进 行 传递 ， 将 神经 元 接收 到 的 总 输入 值 与 
神经 元 的 阀 值 进行 比较 ， 然 后 通过 “激活 函数 ”(activation function) 处 理 ， 从 而 产生 神经 
元 的 输出 y。 
在 数学 上 ， 我 们 可 以 对 该 过 程 进行 如 下 描述 : 


Yf XW HXW HXW +H +X, Wt Ws) 


其 中 ，w 为 该 节点 的 偏 置 项 。 对 于 该 过 程 ， 我 们 采用 和 矩阵 方式 来 表示 。 如 果 输 入 和 矩 
阵 为 : 
z=[% x xx] 

权重 向 量 为 : 

w 

w, 

w=| w, 

Ww, 

偏 置 项 向 量 为 : 


b=[wis ws Wa ws] 
则 对 应 节点 的 输出 值 就 可 以 表示 为 : 


y-R(X-w)-«b) 
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对 于 激活 函数 ， 它 将 输入 值 映射 为 输出 值 “0” 或 “1”， 分 别 对 应 于 神经 元 抑制 和 
神经 元 兴奋 。 常 见 的 激活 函数 多 是 分 段 线 性 函数 和 具有 指数 形状 的 非 线性 函数 ， 主 要 包括 
sigmoid 函 数 、tanh 函 数 和 relu 函 数 。 

1. sigmoid 函 数 

sigmoid 函 数 是 曾经 使 用 范围 最 广 的 一 类 激活 函数 ， 具 有 指数 函数 形状 ， 其 表达 式 
如 下 : 


其 图 像 如 图 6.3 所 示 。 


图 6.3 sigmoid 函数 


sigmoid 函 数 从 物理 意义 上 最 接近 生物 神经 元 ， 可 以 把 它 当 成 神经 元 的 放电 率 ， 在 中 
间 和 斜率 比较 大 的 地 方 是 神经 元 的 敏感 区 ， 在 两 边 和 斜率 很 平缓 的 地 方 是 神经 元 的 抑制 区 。 它 
的 输出 映射 区 间 为 (0,D)， 单 调 连续 、 易 于 求 导 ， 在 计算 分 类 的 概率 时 非常 有 用 。 

但 是 sigmoid 函 数 也 存在 一 定 的 缺陷 : 第 一 ， 在 神经 网 络 反 向 传播 的 过 程 中 ， 我 们 需 
要 通过 微分 的 链 式 法 则 来 计算 各 个 权重 的 微分 。 但 是 反 向 传播 经 过 激活 函数 sigmoid 时 ， 
如 果 输 入 值 很 大 或 很 小 ， 权 重 的 微分 就 会 很 小 ， 最 后 会 导致 权重 对 损失 函数 几乎 没有 影 
响 ， 这 样 不 利于 权重 的 优化 ， 从 而 导致 梯度 饱和 问题 ;第 二 ， 函 数 输 出 不 是 以 0 为 中 心 
的 ， 这 样 会 使 权重 更 新 效率 降低 ; 第 三 ，sigmoid 函 数 要 进行 指数 运算 ， 而 该 运算 对 于 计 
算 机 来 说 比较 慢 。 

2. tanh 函 数 

tanh 函 数 即 双 曲 正切 函数 ， 其 表达 式 如 下 : 

1 一 e 
l+e™ 


X 


ys 


其 图 像 如 图 6.4 所 示 。 


图 6.4 ”tanh 函 数 
可 以 看 出 ，tanh 函 数 的 形态 与 sigmoid 函 数 的 形态 比较 相近 ， 但 它 是 以 0 为 中 心 的 。 因 
此 ， 它 有 效 地 解决 了 收敛 速度 问题 。 同 sigmoid 函 数 一 样 ，tanh 函 数 在 输入 值 很 大 或 是 很 小 
时 ， 梯 度 也 很 小 ， 会 导致 梯度 饱和 问题 。 
3. relu 函 数 
relu 函 数 即 修正 线性 函数 ， 是 目前 最 受 欢 迎 的 激活 函数 ， 其 表达 式 如 下 : 


y 7 max(0, x) 


其 图 像 如 图 6.5 所 示 。 


图 6.5 ”relu 函 数 
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可 以 很 明显 地 看 出 ， 当 输入 为 正 数 时 ， 不 存在 梯度 饱和 问题 ， 而 且 relu 函 数 只 有 线性 
关系 ， 计 算 速 度 比 sigmoid 和 tanh 函 数 都 要 快 很 多 。 

当然 ，relu 函 数 也 有 缺陷 : 第 一 ， 当 输入 值 为 负数 时 ，relu 函 数 是 完全 不 被 激活 的 ， 这 
会 导致 对 应 的 权重 无 法 更 新 ， 称 为 “神经 元 死亡 ”。 第 二 ，relu 函 数 的 输出 要 么 是 0， 要 么 
是 正 数 ， 同 样 是 不 以 0 为 中 心 的 函数 。 

在 TensorFlow 中 ， 针 对 神经 元 提供 了 对 应 的 激活 函数 ， 具 体 如 下 : 
tf.sigmoid(x, name-None) 
tf.tanh(x, name-None) 
tf£.nn.relu(features, name-None) 
tf.nn.relu6(features, name-None) 
tf.nn.softplus(features, name-None) 


tf.nn.dropout(x, keep prob, noise shape-None, seed-None, name-None) 


HB ug BJ gw 


tf.nn.bias add(value, bias, name-None) 
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对 神经 元 节点 进行 有 机 结合 并 相互 连接 ， 就 构成 了 神经 网 络 模型 ， 如 图 6.1 所 示 。 

假如 输入 数据 的 维度 和 输入 层 神经 元 的 个 数 相同 ， 并 且 输入 向 量 的 元 素 与 输入 层 的 节 
点 一 一 对 应 ， 则 可 以 通过 运算 获得 隐 层 中 每 个 节点 的 输出 值 。 同 理 ， 可 以 计算 得 到 输出 层 
每 个 节点 的 输出 值 ， 从 而 获得 输出 层 的 输出 向 量 。 同 时 ， 输 出 向 量 的 维度 也 和 输出 层 神 经 
元 的 个 数 相同 。 

如 图 6.1 所 示 ， 在 输入 层 有 三 个 节点 。 我 们 使 用 数学 方式 来 描述 整个 计算 过 程 。 假 设 
为 输入 层 的 三 个 节点 分 别 输入 x,、x,、x3。 隐 层 中 第 一 个 节点 的 权重 值 分 别 为 ws,、w、 
ww。 隐 层 中 节点 的 激活 函数 为 Rx)， 则 根据 神经 元 模型 可 以 得 出 隐 层 的 第 一 个 节点 的 输 
出 值 ; 


Amf X w)+b) 
同 理 ， 可 以 计算 出 该 隐 层 的 其 他 节点 的 输出 值 4;s、A46、4;， 隐 层 的 输出 值 表 达 式 为 : 


W Wi W Wn 
-2f|b x x] Wi Wi Wao Wn +[w。 Wa Ws w,] 


a Ws Ws Ws 


mrs 


输出 层 的 结果 为 : 


y-f((-9)«5) 

在 神经 网 络 中 进行 训练 的 过 程 中 ， 就 是 采取 以 上 方式 对 样本 进行 计算 。 对 于 训练 样本 
数据 集 (x,y)， 通 过 输入 值 x 进 行 计算 产生 输出 层 的 预测 值 pre Y。 然 后 根据 pre_Y 与 实际 值 y 
之 间 的 误差 ， 进 行 权重 调整 。 

对 于 权重 调整 ， 在 神经 网 络 中 采用 误差 道 传播 (error Back Propagation，BP) 算 法 进行 
更 新 调整 ， 如 图 6.6 所 示 。 


输出 层 -AK-----em 第 j 个 输出 神经 元 的 输入 
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em 第 万 个 隐 层 神经 元 的 输入 
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输入 层 


图 6.6 ”BP 算法 ' 


如 图 6.6 所 示 ，BP 算 法 的 核心 思路 可 以 分 为 如 下 步骤 : 

@ 将 每 个 训练 样本 提供 给 输入 层 ， 然 后 通过 逐 层 计算 ， 直 到 产生 输出 层 的 预测 值 pre Y. 

@ 计算 输出 层 的 预测 值 pre_Y 与 真实 值 y 之 间 的 误差 ， 将 误差 逆向 传播 至 神经 网 络 的 
神经 元 中 。 

O 根据 误差 调整 神经 元 之 间 的 权重 和 偏差 。 

© 在 调整 后 的 神经 网 络 中 对 训练 样本 进行 计算 和 误差 调整 ， 不 断 进行 循环 迭代 ， 直 
到 满足 停止 条 件 。 

在 BP 算法 中 ， 重 要 的 是 对 损失 函数 的 选择 。 对 于 分 类 问题 ， 最 常用 的 损失 函数 就 是 
softmax AZ X Kith K (softamx cross entropy loss) 函 数 。TensorFlow 中 也 提供 了 对 应 的 方法 : 

tf.nn.softmax cross entropy with logits(logits, labels, name=None) 

其 中 ， 第 一 个 参数 logits 就 是 神经 网 络 中 最 后 一 层 的 输出 向 量 ， 而 且 此 时 的 logits 未 经 
处 理 。 该 方法 会 对 logits 使 用 softmax 操 作 。 输 出 向 量 的 大 小 为 num_classes， 如 果 使 用 了 
batch， 则 大 小 就 是 [batchsize，num _classes]。 

第 二 个 参数 labels 就 是 数据 实际 的 标签 值 。 

需要 注意 的 是 ， 该 损失 函数 的 返回 值 是 一 个 向 量 而 不 是 一 个 数 。 在 求 损失 值 时 ， 一 般 
还 需要 使 用 tfreduce_mean 操 作 ， 对 返回 值 向 量 求 均值 。 

以 上 介绍 的 就 是 最 基础 的 神经 网 络 模型 ， 在 此 基础 上 ， 还 有 卷 积 神经 网 络 和 循环 神经 
网 络 等 。 神 经 网 络 模 型 可 以 用 于 解决 回归 问题 ， 也 可 以 用 于 解决 分 类 问题 ， 在 自然 语言 


1 ”请 参考 http://galaxy.agh.edu.pl/~vlsi/Al/backpten/backprop.html。 
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理 、 图 形 图 像 处 理 等 方面 都 有 突出 表现 。 在 接 下 来 的 章节 中 ， 我 们 将 详细 讲解 常用 的 神经 
网 络 算法 。 


O7 mam e Â 


神经 网 络 模型 的 应 用 范围 十 分 广泛 ， 能 够 解决 分 类 问题 ， 也 可 以 解决 回归 问题 。 在 本 
节 中 ， 我 们 将 通过 一 个 简单 的 拟 合 线性 回归 问题 来 掌握 基础 神经 网 络 模型 的 构建 。 

对 于 最 基础 的 神经 网 络 模型 ， 至 少 需 要 包含 输入 层 和 输出 层 ， 一 般 还 需要 若干 隐 层 。 
其 中 ， 输 入 层 神 经 元 的 个 数 与 输入 向 量 的 维度 相同 ， 输 出 层 神经 元 的 个 数 与 输出 向 量 的 维 
度 相同 ， 而 隐 层 则 根据 实际 需要 进行 神经 元 个 数 的 假定 。 

在 本 节 中 ， 将 构建 一 个 带 一 层 隐 层 的 神经 网 络 模型 ， 用 来 实现 样本 数据 的 线性 拟 合 。 


6.2.1] 生成 训练 数据 


首先 ， 我 们 来 模拟 生成 训练 数据 。 构 造 满足 y=3x+5 关 系 的 若干 个 点 ， 并 在 构造 过 程 中 
加 入 偏差 噪声 点 ， 具 体 实现 如 下 。 


01 import os 

02 os.environ[TF_CPP_MIN_LOG_LEVEL]='2/ 

03 import TensorFlow as tf # 用 于 模型 训练 

04 import matplotlib.pyplot as plt # 用 于 绘制 图 形 

05 import numpy as np # 用 于 科学 计算 

06 np.set printoptions(threshold-'nan") THETEDPSERIREKIE 
07 t x7 np.linspace(-1,1,50,dtype = np.float32) # 生 成 x 

08 noise = np.random.normal(0 , 0.05 , t x.shape) # 生 成 噪声 点 

09 ty=t_x*3.0+5.0+noise # 生 成 y 


[EE] mmm 


神经 网 络 模型 的 定义 主要 可 以 分 为 四 步 ， 分 别 是 构建 输入 层 、 构 建 隐 层 、 构 建 输出 层 
和 定义 损失 函数 。 
很 明显 ， 在 本 例 中 只 需要 输入 x 值 即 可 ， 其 定义 如 下 : 


x-tf.placeholder(tf.float32,[None,1]) 


我 们 知道 在 神经 网 络 中 需要 得 到 输出 向 量 ， 其 计算 公式 如 下 : 


W, 


a W 


a W 


w W 


7" 


Wo Wi Wo Wn 


Z x, x 


+[w， Wa Ws 5 


Ws Ws Ws Wn 
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要 获取 输出 向 量 ， 需 要 知道 输入 向 量 、 输 入 向 量 的 维度 、 激 活 函数 和 输出 数据 的 维度 。 

在 隐 层 中 ， 首 先 根据 神经 元 节点 的 对 应 连接 线 的 权重 和 偏 置 项 进行 如 下 处 理 : 
AEX x+ 偏 置 项 

进行 计算 后 ， 选 择 对 应 的 激活 函数 进行 处 理 即 可 得 到 输出 向 量 。 所 以 ， 通 用 神经 网 络 

层 的 构建 方法 如 下 所 示 : 


01 # 构 建 神经 网 络 层 
02 def add_layer(input,in_size,out_size,activation_function): 


03 Weight=tf.Variable(tf.random_normal([in_size,out_size])) # 权 重 向 量 
04  biases-tf.Variable(tf.zeros([1,0ut size])) # 偏 置 项 
05 Wx_plus_b=tf.matmul(input,Weight)+biases AHA 


06  ifactivation function is None: 

07 outputs-Wx plus b 

08 else: 

09 outputs-activation function(Wx plus. b) 
10 return outputs 


在 本 例 中 ， 总 共有 输入 层 、 隐 层 和 输出 层 。 

口 输入 层 用 于 样本 数据 的 输入 ， 无 须 进 行 操作 。 

O 隐 层 用 于 神经 网 络 中 的 第 一 次 处 理 。 输 入 的 值 为 x， 维 度 为 1。 输 出 值 为 神经 网 络 
的 一 次 处 理 结果 。 假 定 隐 层 为 10 个 节点 ， 则 输出 值 的 维度 为 10。 在 激活 函数 的 选 
择 上 ， 采 用 最 常用 的 relu 函 数 。 

C) 输出 层 用 于 神经 网 络 的 预测 值 pre_Y 的 输出 。 输 入 值 为 隐 层 的 输出 值 ， 数 据 维度 
为 10。 最 终 的 输出 数据 为 预测 的 ?> 值 ， 维 度 为 1。 在 激活 函数 的 选择 上 ， 不 再 使 用 
激活 函数 ， 而 是 直接 获取 预测 值 。 

在 对 比 预 测 值 与 真实 值 之 间 误 差 损失 函数 的 选择 上 ， 使 用 线性 模型 的 最 小 化 均 方 

误差 。 

整个 神经 网 络 的 具体 实现 如 下 : 


01 y=tf.placeholder(tf.float32,[None, 1]) 

02 # 构 建 隐 层 ， 假 设 有 10 个 神经 元 ， 使 用 relu 为 激活 函数 

03 l1=add_layer(x,1,10,activation_function=tf.nn.relu) 

04 # 构 建 输出 层 ， 输 入 值 为 隐 层 的 输出 值 

05 predition=add_layer(l1,10,1,activation_function=None) 

06 # 损 失 函 数 

07 loss-tf.reduce mean(tf.reduce sum(tf.square(y-predition),reduction indices-[1])) 
08 train step-tf.train.GradientDescentOptimizer(O.1).minimize(loss) 


[6.2.3 6m 


接 下 来 将 进行 正式 的 数据 训练 ， 总 共 训练 1000 次 。 为 了 便于 查看 训练 过 程 ， 每 训练 完 
50 次 ， 输 出 当前 的 训练 次 数 以 及 损失 值 ， 具 体 实现 如 下 : 


01 者 |l 练 模型 
02 init-tf.global variables initializer() 
03 sess-tf.Session() 


le 
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04 sess.run(init) 
05 for iin range(1000): 


06  sess.un(train step/feed dict-px:t x,y:t. y]) 


07  if(*1)9550--0: 


08 print(i,sess.run([loss]feed dict-x:t. x, yt y])) 


[6.2.4 运行 总 结 


经 过 以 上 步骤 后 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 ， 如 图 6.7 所 示 。 


49 [0.0064074672] 
99 [0.0043427828] 
149 [0.003446331] 
199 [0.0028689532] 
249 [0.0024878336] 
299 [0.0023611619] 
349 [0.0023192386] 
399 [0.0023038092] 
449 [0.002297339] 
499 [0.0022946629] 
549 [0.002292945] 
599 [0.0022915555] 
649 [0.0022903057] 
699 [0.0022891208] 
749 [0.0022879795] 
799 [0.0022871613] 
849 [0.0022866619] 
899 [0.002286159] 
949 [0.0022856584] 
999 [0.0022851571] 


图 6.7 ”损失 值 的 变化 情况 


可 以 很 明显 地 看 到 ， 在 完成 49 次 训练 后 ， 损 失 值 已 经 非常 小 了 ， 而 学 习 率 则 非常 高 。 
通过 练习 ， 我 们 熟悉 了 构建 神经 网 络 模型 的 重点 是 构建 输入 层 、 隐 层 、 输 出 层 以 及 


后 ， 定 义 损失 函数 。 


O MNs TA i Â 


定义 损失 函数 。 首 先 ， 通 过 输入 向 量 以 及 输入 向 量 的 维度 构建 输入 层 。 其 次 ， 通 过 隐 层 层 
数 、 每 层 节点 数 、 每 层 激活 函数 的 选择 构建 隐 层 。 再 次 ， 通 过 输 


节点 数 构建 输出 层 。 最 


MNIST 是 一 个 入 门 级 的 计算 机 视觉 数据 集 ， 它 包含 各 种 手写 数字 图 片 ， 由 美国 国家 


标准 与 技术 研究 所 (National Institute of Standards and Technology，NIST) 提 供 ， 是 一 个 经 
典 的 数据 集 。 本 章 接 下 来 的 部 分 将 使 用 常用 的 神经 网 络 算法 分 别 对 该 数据 集 进行 训练 和 
评估 。 


6.3.1 MNIST 数 据 集 简介 
MNIST 数 据 集 包 含 以 下 4 个 文件 : 


Training set images: train-images-idx3-ubyte.gz 
Training set labels: train-labels-idx1-ubyte.gz 
Test set images: t1Ok-images-idx3-ubyte.gz 
Test set labels: t10k-labels-idx1-ubyte.gz 


这 4 个 文件 分 别 是 训练 集 图 片 文件 、 训 练 集 标记 文件 、 测 试 集 图 片 文件 和 测试 集 标记 
文件 。 

训练 集 有 60 000 个 样本 ， 测 试 集 有 10 000 个 样本 ， 而 且 对 数字 已 经 进行 了 预 处 理 和 格 
式 化 ， 做 了 大 小 调整 并 居中 ， 图 片 尺 寸 也 进行 了 固定 。 在 实际 训练 过 程 中 ， 训 练 速度 非常 
快 ， 收 敛 效果 十 分 明显 。 


天 4 数据 集 图 片 文件 


数据 集 图 片 文 件 是 IDX3 格 式 的 文件 ， 其 中 训练 集 图 片 文 件 train-images-idx3-ubyte 的 格 
x: 
TRAINING SET IMAGE FILE (train-images-idx3-ubyte): 


[offset] [type] [value] [description] 

0000 32 bit integer 0x00000803(2051) magic number 

0004 32 bit integer 60000 number of images 

0008 32 bit integer 28 number of rows 

0012 32 bit integer 28 number of columns 

0016 unsigned byte 7? pixel 

0017 unsigned byte ?? pixel 

XXXX unsigned byte ?? pixel 

Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means 
foreground (black). 


很 明显 ， 从 文件 格式 中 可 以 看 出 有 60 000 个 样本 ， 每 个 图 片 文件 都 是 28 像 素 X28 像 素 
大 小 。 每 个 像素 也 将 是 进行 训练 时 的 特征 值 。 

对 图 片 文件 代表 的 图 片 进行 绘制 ， 可 以 看 到 数字 0~9 对 应 的 不 同样 式 的 手写 体 ， 如 
图 6.8 所 示 。 
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图 6.8 ”绘制 图 片 文件 
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[6.3.3 seesicxe 


数据 集 标 记 文 件 是 IDX1 格 式 的 文件 ， 其 中 训练 集 标 记 文 件 train-labels-idxl-ubyte 的 格 


式 如 下 : 
TRAINING SET LABEL FILE (train-labels-idx1-ubyte): 
[offset] [type] [value] 


0000 32 bit integer 0x00000801(2049) 
0004 32 bit integer 60000 

0008 unsigned byte "? 

0009 unsigned byte ?? 

XXXX unsigned byte ?? 

The labels values are 0 to 9. 


[description] 

magic number (MSB first) 
number of items 

label 

label 


label 


很 明显 ， 从 文件 格式 中 可 以 看 出 有 60 000 个 样本 ， 并 且 对 每 一 张 对 应 的 图 片 进行 了 标 
识 ， 标 识 的 值 为 0-9。 显 然 ， 它 们 分 别 对 应 图 片 中 手写 体 的 0~9。 
接 下 来 ， 我 们 将 通过 神经 网 络 算法 对 MNIST 数 据 集 进行 分 类 处 理 。 


Lu ENT 


神经 网 络 模型 对 于 解决 分 类 问题 有 着 优良 的 性 能 ， 在 本 节 中 ， 将 通过 构建 神经 网 络 模 


型 来 实现 对 MNIST 数 据 集 的 处 理 。 
16.4.1 或 MNIST 练 数据 


关于 MNIST 数 据 集 的 使 用 ， 需 要 导入 input data.py 文 件 ， 使 用 TensorFlow.contrib.learn. 
python.learn.datasets.mnist 中 的 read_data_sets 来 加 载 数 据 。 该 方法 首先 从 本 地 读 取 MNIST 数 
据 集 ， 如 果 在 本 地 未 找到 ， 则 从 网 络 中 下 载 。 为 了 保证 不 受 网 络 状 况 的 干扰 ， 可 以 先 从 
http://yann.lecun.com/exdb/mnist/ 下 载 MNIST 数 据 集 。 具 体 实 现 如 下 : 


01 import tensorflow as tf 

02 import numpy as np 

03 import input_data 

04 sDnSEMNIS TREE SE 

05 print('Download and Extract MNIST dataset) 


06 mnist = input data.read data sets('data/, one hot-True) 
07 print("number of train data is 96d" 96 (mnist.train.num examples)) 
08 print("number of test data is 96d" 96 (mnist.test.num examples)) 


09 trainimg 7 mnist.train.images 


10 trainlabel = mnist.train.labels 
11 testimg = mnist.test.images 
12 testlabel = mnist.test.labels 


运行 上 述 代 码 ， 可 以 看 到 ， 在 代码 所 在 的 目录 中 增加 了 一 个 名 为 data 的 文件 夹 ， 且 该 
文件 夹 中 保存 了 MNIST 数 据 集 文件 ， 如 图 6.9 所 示 。 

名 称 E 

B t10k-images-idx3-ubyte.gz 

&B t10k-labels-idx1-ubyte.gz 

&B train-images-idx3-ubyte.gz 

$ train-labels-idx1-ubyte.gz 

图 6.9 ”MNIST 数 据 集 文件 


[6.4.2 徇 建 神经 网 络 模型 


神经 网 络 模型 的 构建 主要 分 为 四 步 ， 分 别 是 构建 输入 层 、 隐 层 、 输 出 层 以 及 定义 损失 
函数 。 

在 输入 层 中 ， 只 需要 明确 输入 数据 的 维度 即 可 。 对 于 MNIST 数 据 集 来 说 ， 输 入 的 是 每 
一 个 图 片 文件 ， 维 度 为 28X28=784， 定 义 如 下 : 


x_ = tf.placeholder(tf.float32, [None, 784]) 
对 于 隐 层 ， 将 首先 根据 神经 元 节点 的 对 应 连接 线 的 权重 和 偏 置 项 进行 如 下 处 理 : 
y BUE X x+ 偏 置 项 

然后 经 过 激活 函数 的 非 线 性 化 处 理 ， 得 到 输出 向 量 。 所 以 ， 通 用 的 神经 网 络 模型 的 构 
建 方法 如 下 : 

01 # 构 建 神经 网 络 模型 

02 def add_layer(input,in_size,out_size,activation_function): 

03 Weight=tf.Variable(tf.random_normal([in_size,out_size])) # 权 重 向 量 

04  biases-tf.Variable(tf.zeros([1,out. size])) # 偏 置 项 

05  Wx plus b-tf.matmul(input, Weight)*biases # 计 算 

06  ifactivation function is None: 

07 outputs-Wx. plus b 

08 else: 

09 outputs=activation_function(Wx_plus_b) 

10 return outputs 


在 本 例 中 ， 构 建 了 一 个 最 简单 的 神经 网 络 模型 ， 直 接 从 输入 层 到 输出 层 ， 中 间 不 增加 
隐 层 ， 整 体 模型 如 图 6.10 所 示 。 
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输入 层 输出 层 


图 6.10 ”神经 网 络 模型 的 设计 


对 于 输出 层 ， 最 终 输出 MNIST 数 据 集中 的 0~9 共 10 个 分 类 ， 输 出 值 的 维度 为 10。 


对 于 损失 函数 ， 一 般 选 取 softmax 交 叉 灶 损 失 函 数 ，TensorFlow 中 也 提供 了 对 应 的 


方法 : 


tf.nn.softmax cross entropy with logits(logits, labels, name=None) 


其 中 ， 参 数 logits 是 输出 层 的 输出 向 量 ， 参 数 labels 就 是 数据 实际 的 标签 值 。 该 方法 会 
同时 对 输出 向 量 logits 使 用 softmax 操 作 ， 而 softmax 操 作 实 现 的 功能 就 是 将 逻辑 回归 中 预测 


二 分 类 的 概率 问题 推广 到 n 分 类 的 概率 问题 。 

所 以 ， 在 输出 层 之 前 无 须 增加 单独 的 softmax 层 来 完成 softmax 操 作 ， 只 需要 在 输出 
的 输出 向 量 之 后 使 用 该 方法 即 可 。 

对 于 使 用 softmax 回 归 构 建 的 神经 网 络 模型 ， 具 体 实现 如 下 : 

01 x. = tf.placeholder(tf.float32, [None, 784]) 

02 y. = tf.placeholder(tf.float32, [None, 10]) 

03 办 人 有 隐 层 ， 使 用 通用 的 神经 网 络 层 构 建 方法 构建 输入 层 和 输出 层 

04 predition=add_layer(x_,784,10,activation_function=None) 

05 cross entropy = tf.reduce mean( 

tf.nn.softmax cross entropy with logits(labels-y. , logits-predition)) # 损 失 函 数 
06 train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy) 
07 init = tf.global variables initializer() # 全 局 参数 初始 化 器 


| 6.4.3| 进行 数据 训练 


层 


接 下 来 进行 正式 的 数据 训练 。 使 用 小 批量 梯度 下 降 法 进行 优化 ， 共 和 迭代 101 次 ， 每 训 


练 完 5 次 ， 输 出 当前 的 训练 次 数 和 损失 值 ， 具 体 实现 如 下 : 


01 training_epochs = 101 # 所 有 样本 迭代 101 次 
02 batch_size = 100 # 每 进行 一 次 迭代 ， 选 择 100 个 样本 


03 display_step=5 
04 sess = tf.Session() 
05 sess.run(init) 

06 for epoch in range(training epochs): 


07 
08 


L2 surzd 
avg cost = 0. 


num batch = int(mnist.train.nuum  examples/batch size) 
for iin range(num batch): 
batch xs, batch. ys = mnist.train.next batch(batch size) 
sess.run(train step, feed dict-(x : batch xs, y : batch ys]) 
&vg cost += sess.run(cross entropy, feed dict-( 
x : batch. xs, y. :batch ys])/num batch 


评估 模型 


使 用 测试 集 数据 对 神经 网 络 模型 进行 评估 。 
在 本 例 中 ， 可 以 使 用 tf.argmax(y,1) 方 法 获取 根据 任意 输入 x 预测 到 的 标记 值 。 将 该 值 
与 实际 值 匹 配 ， 并 将 预测 值 转 为 浮 点 数 ， 取 平均 值得 到 准确 率 。 具 体 实 现 如 下 : 


01 族 |l 练 一 定 程度 后 ， 用 模型 预测 测试 数据 
if epoch 96 display. step == 0: 
correct prediction = tf.equal(tf.argmax(predition, 1), tí.argmax(y. , 1)) 


02 
03 
04 
05 


06 


07 
08 


m— 


运行 


accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
test acc-sess.run(accuracy, feed dict-[x : mnist.test.images, 


accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


上 述 代 码 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 以 及 模型 对 测试 数据 集 准确 
率 的 提升 ， 如 图 6.11 所 示 。 


Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 


y.: mnist.test.labels)) 

print("Epoch: %d/%d cost: %f TEST ACCURACY: %f 
96 (epoch, training epochs, avg. cost, test acc)) 

correct prediction = tf.equal(tf.argmax(predition, 1), tf.argmax(y. , 1)) 


000/101 
005/101 
010/101 
015/101 
020/101 
025/101 
030/101 
935/101 
040/101 
045/101 
050/101 
055/101 
060/101 
065/101 
070/101 
075/101 
080/101 
085/101 
990/101 
995/101 
100/101 


cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 
cost: 


图 6.11 


国 国 国 国 国 国 国 故国 国 罩 四国 四 四 四 日 四 四 四 


损失 值 的 变化 情况 


.080109927 TEST ACCURACY: 
.333300605 TEST ACCURACY: 
-280366158 TEST ACCURACY: 
.257214798 TEST ACCURACY: 
.242295018 TEST ACCURACY: 
.233575399 TEST ACCURACY: 
-227772230 TEST ACCURACY: 
.222964277 TEST ACCURACY: 
.218886445 TEST ACCURACY: 
-214564537 TEST ACCURACY: 
-213363276 TEST ACCURACY: 
-210621012 TEST ACCURACY: 
.209359292 TEST ACCURACY: 
207296082 TEST ACCURACY: 
205890206 TEST ACCURACY: 
-204406129 TEST ACCURACY: 
.202895412 TEST ACCURACY: 
.202550599 TEST ACCURACY: 
.201736267 TEST ACCURACY: 
-200965219 TEST ACCURACY: 
.200795886 TEST ACCURACY: 
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可 以 看 到 ， 最 终 的 准确 率 大 概 为 92.2%。 对 于 这 样 的 准确 率 ， 误 差 还 是 较 大 的 。 
[6.4.5 徇 建 多 层 神经 网 络 模型 


在 MNIST 分 类 处 理 中 ， 我 们 仅仅 构造 了 最 简单 的 神经 网 络 模型 ， 直 接 从 输入 层 到 输出 
层 ， 中 间 没 有 增加 隐 层 。 如 果 在 输入 层 和 输出 层 之 间 加 入 隐 层 ， 如 图 6.12 所 示 ， 看 看 准确 
率 会 有 怎样 的 变化 。 


输入 层 隐 层 输出 层 


图 6.12 ”多 层 神经 网 络 模型 的 设计 


对 于 隐 层 ， 我 们 假设 有 256 个 神经 元 ， 使 用 最 常用 的 relu 函 数 为 激活 函数 ， 有 具体 修改 
如 下 : 

01 # 使 用 一 个 输入 层 、 一 个 隐 层 、 一 个 输出 层 

02 n input. = 784# 输 入 层 

03 n hidden 1 = 256 

04 n classes = 10# 输 出 层 

05 # 构 建 隐 层 

06 I1-add layer(x ,n input,n hidden 1,activation function-tf.nn.relu) 

07 # 构 建 输出 层 

08 predition=add_layer(l1,n_hidden_1,n_classes,activation_function=None) 


增加 完 隐 层 后 ， 使 用 优化 后 的 神经 网 络 模 型 对 MNIST 进 行 处 理 ， 运 行情 况 如 图 6.13 
所 示 。 


增加 隐 


Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 


高 了 准确 率 。 


器 现 可 各 化 多 层 神经 网 络 模型 


在 前 面 的 章节 中 ， 我 们 提 到 ， 可 以 使 用 TensorBoard 对 训练 过 程 进行 可 视 化 。 

如 果 要 实现 可 视 化 ， 需 要 在 训练 过 程 中 给 必要 的 节点 添加 摘要 (summary)， 摘 要 会 
收集 该 节点 的 数据 ， 并 标记 第 几 步 、 时 间 惟 等 信息 ， 然 后 写 入 事件 文件 (event file)。 各 
tf.summary.FileWriter 类 提供 了 相关 的 记录 方法 ， 对 各 方法 的 说 明 如 下 。 
summary: 所 有 需要 在 TensorBoard 上 展示 的 统计 结果 。 
tf.name scope(): 为 Graph 对 象 中 的 Tensor 添 加 层级 ，TensorBoard 会 按照 代码 指定 


ag 
ag 


a 


的 层级 进行 展示 ， 初 始 状态 下 只 绘制 最 高 层级 的 效果 ， 单 击 后 可 


一 层 的 细节 。 


000/101 cost: 
005/101 cost: 
010/101 cost: 
015/101 cost: 
020/101 cost: 
025/101 cost: 
030/101 cost: 
035/101 cost: 
040/101 cost: 
045/101 cost: 
050/101 cost: 
055/101 cost: 
060/101 cost: 
065/101 cost: 
070/101 cost: 
675/101 cost: 
080/101 cost: 
085/101 cost: 
090/101 cost: 
095/101 cost: 
100/101 cost: 


2.870497101 
0.114470526 
日 .974398114 
0.054091319 
0.041263511 
0.033042676 
0.027227487 
0.021811405 
0.017887731 
0.014892190 
0.012180214 
0.010177442 
0.008486077 
09.007336855 
0.006207679 
0.005470255 
0.004743160 
0.004163101 
09.003730915 
0.003379429 
0.003075576 


TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 


图 6.13 ”损失 值 的 变化 情况 
可 以 看 到 ， 在 增加 隐 层 后 ， 最 终 的 准确 率 大 概 为 95.5%。 
对 真实 的 MNIST 数 据 集 使 用 神经 网 络 模型 进行 分 类 处 理 的 过 程 如 下 : 首先 使 用 
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tfsummary.scalar(): 添加 标量 统计 结果 。 
tf.summary.histogram(): 添加 任意 形状 的 Tensor， 统 计 Tensor 的 取 值 分 布 。 

tf.summary.merge_all): 添加 一 个 合并 操作 ， 表 示 执 行 所 有 summary 操 作 ， 这 样 可 
以 避免 人 工 执行 每 一 个 summary 操 作 。 
tf.summary.FileWriter: 用 于 将 summary 写 入 磁盘， 需要 指定 存储 路 径 logdir。 如 果 
传递 了 Graph 对 象 ， 在 Graph Visualization 中 会 显示 Tensor Shape Information。 执 行 
summary 操 作 后 ， 将 返回 结果 传递 给 add_summary() 方 法 即 可 。 
在 6.4.5 节 中 构造 多 层 神经 网 络 时 ， 我 们 加 入 相关 的 语句 来 记录 相关 信息 ， 例 如 : 


rr 


9.868 
0.921 
0.929 
0.937 
0.941 
09.945 
0.948 
9.949 
0.949 
0.951 
09.951 
0.951 
09.953 
0.953 
0.954 
09.953 
0.954 
0.955 
0.954 
0.955 
0.954 


层 ， 再 次 对 数据 集 进 行 分 类 ， 准 确 率 达到 95% 以 上 。 可 以 看 出 ， 增 加 隐 层 确实 提 


展开 层级 看 到 下 


on+Tensor 


01 defvariable_summaries(varn): 
02 with tf.name_scope('summaries'): 


03 mean = tf.reduce_mean(var) 

04 tf.summary.scalar('mean', mean) # 在 scalar 中 添加 均值 统计 
05 with tf.name scope('stddev?: 

06 Stddev = tf.sqrt(tf.reduce mean(tf.square(var - mean))) 

07 tf.summary.scalar('stddev', stddev) # 在 scalar 中 添加 标准 差 统计 
08  tf.summary.scalar('max, tf.reduce max(var)) # 在 scalar 中 添加 最 大 值 统 计 
09 tf.summary.scalar('min', tf.reduce min(var)) # 在 scalar 中 添加 最 小 值 统 计 
10  tf.summary.histogram(histogram', var) # 在 histogram 中 添加 统计 


添加 完 统计 项 声明 后 ， 使 用 tf.summary.merge_all() 方 法 将 各 项 内 容 添 加 到 事件 文件 
中 ， 并 使 用 tf.summary.FileWriter() 方 法 指明 文件 的 存放 位 置 。 在 实际 训练 数据 前 添加 相关 
语句 : 


01 merged = tf.summary.merge all() 
02 train. writer = tf.summary.FileWriter(log dir + '/train', sess.graph) 


完成 训练 后 ， 可 以 在 Anaconda Prompt 中 启用 TensorBoard， 输 入 相应 的 命令 ， 有 具体 
如 下 : 


01 activate tensorflowCpu # 启 用 tensorflow 沙 箱 环境 
02 tensorboard --logdir C:\log\mnist_model # 可 视 化 训练 过 程 


执行 上 述 命令 后 ， 会 出 现 正常 启动 的 提醒 信息 ， 如 下 所 示 : 

TensorBoard 0.4.0 at http://USER-20151007LN:6006 (Press Ctrl+C to quit) 

在 浏览 器 中 访问 本 地 计算 机 的 6006 端 口 ， 例 如 http://USER-20151007LN:6006， 就 能 成 
功 打开 TensorBoard 显 示 界 面 。 

可 以 任意 查看 需要 研究 的 数据 信息 ， 例 如 隐 层 中 各 项 记录 值 的 变化 情况 ， 如 图 6.14 
所 示 。 
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图 6.14” 隐 层 中 各 项 记录 值 的 变化 情况 
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还 可 以 查看 损失 值 、 准 确 率 的 变化 情况 ， 如 图 6.15 所 示 。 
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图 6.15 ”准确 率 、 损 失 值 的 变化 情况 
对 于 TensorBoard 可 视 化 ， 读 者 在 后 续 实 践 中 可 以 慢 慢 体会 。 
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卷 积 神经 网 络 (Convolutional Neural Network，CNN) 是 非常 重要 的 一 种 神经 网 络 模 
型 ， 它 在 图 像 、 语 音 识 别 领 域 的 应 用 ， 使 相关 领域 也 都 得 到 重要 突破 。 例 如 ， 谷 歌 的 
GoogleNet、 微 软 的 ResNet 等 ， 甚 至 打败 李 世 石 的 AlphaGo 也 用 到 了 这 种 网 络 。 

接 下 来 将 详细 介绍 卷 积 神经 网 络 及 其 训练 算法 ， 还 将 介绍 如 何 使 用 卷 积 神经 网 络 实现 
对 MNIST 数 据 集 的 识别 。 


Python+TensorFlow 机 器 学 习 实 战 


卷 积 神经 网 络 简介 


卷 积 神经 网 络 是 在 基础 神经 网 络 之 上 进行 优化 处 理 的 一 种 神经 网 络 模型 ， 主 要 关注 于 
图 像 识别 任务 。 

对 于 图 像 的 处 理 来 说 ， 一 般 有 这 样 的 特征 : 一 是 每 种 图 片 的 像素 点 多 ， 小 的 图 片 为 
320 像 素 X480 像 素 ， 稍 大 的 图 片 为 1024 像 素 X768 像 素 ; 二 是 每 个 像素 与 其 周围 像素 的 联 
系 比较 紧密 ， 与 离 得 很 远 的 像素 的 联系 可 能 就 很 小 了 。 

对 于 这 样 的 任务 如 果 依 然 选择 前 面 章节 中 使 用 的 全 连接 神经 网 络 ， 就 会 出 现 以 下 
问题 。 

第 一 ， 参 数 数量 太 多 。 如 果 输 入 一 张 100 像 素 X 100 像 素 的 小 图 片 ， 输 入 层 就 需要 有 
100X100=10 000 个 节点 。 如 果 神 经 网 络 只 有 一 个 隐 层 ， 并 且 假 定 该 层 只 有 100 个 节点 ， 那 
么 仅仅 这 一 层 就 有 (100X100)X100=1 000 000 个 参数 。 这 样 的 参数 数量 已 经 不 小 了 ， 计 算 
己 经 非常 复杂 了 。 在 现实 中 ，100 像 素 X100 像 素 的 图 片 算是 非常 小 了 ， 如 果 像 素 更 高 一 
点 ， 参 数 数量 就 会 成 倍增 多 ， 实 际 效率 会 非常 低下 。 

第 二 ， 没 有 利用 像素 之 间 的 位 置信 息 。 在 全 连接 神经 网 络 中 ， 一 个 神经 元 将 和 上 
一 层 的 所 有 神经 元 相连 ， 对 于 图 像 处 理 而 言 ， 就 相当 于 把 图 像 的 所 有 像素 等 同 看 待 。 但 
是 ， 图 像 文件 的 特点 表明 每 个 像素 仅 与 其 周围 的 像素 联系 紧密 。 如 果 使 用 全 连接 神经 网 
络 进行 学 习 ， 会 存在 大 量 非常 小 的 权重 值 。 这 些 权重 值 对 整个 处 理 效果 不 会 起 到 决定 性 
的 作用 ， 但 是 会 消耗 大 量 的 计算 资源 。 这 样 的 神经 网 络 模型 是 非常 低 效 的 ， 也 不 符合 图 
片 的 基本 特征 。 

第 三 ， 全 连接 神经 网 络 在 实际 应 用 中 存在 网 络 层 数 上 的 限制 。 我 们 知道 ， 网 络 层 数 
越 多 ， 学 习 能 力 越 强 ， 但 是 通过 梯度 下 降 方法 训练 深度 全 连接 神经 网 络 会 变 得 更 困难 。 
此 ， 一 般 的 全 连接 神经 网 络 很 难 传递 超过 三 层 。 

为 了 解决 图 像 处 理 中 的 这 些 问题 ， 提 出 了 卷 积 神经 网 络 。 主 要 思想 是 ， 针 对 图 像 处 
理 的 特征 ， 通 过 尽 可 能 保留 重要 的 参数 ， 去 掉 大 量 不 重要 的 参数 ， 以 此 达到 更 好 的 学 习 
效果 。 

在 实际 处 理 中 主要 采取 局 部 连接 、 权 值 共享 和 下 采样 三 种 方式 。 局 部 连接 指 的 是 每 
个 神经 元 不 再 和 上 一 层 的 所 有 神经 元 相连 ， 而 只 和 一 小 部 分 神经 元 相连 ， 从 而 减少 参数 
数量 。 权 值 共享 就 是 一 组 连接 可 以 共享 同一 个 权重 ， 而 不 是 每 个 连接 都 有 一 个 不 同 的 权 
重 ， 从 而 进一步 减少 参数 数量 。 下 采样 就 是 使 用 Pooling 来 减少 每 层 的 样本 数 ， 进 而 减少 
参数 数量 。 

采用 这 样 的 处 理 方式 会 在 全 连接 神经 网 络 的 基础 上 增加 卷 积 层 (Convolution Layer) 和 
池 化 层 (Pooling Layer)， 并 且 使 用 相同 的 权重 矩阵 。 所 以 ， 典 型 的 卷 积 神经 网 络 模 型 如 
图 6.16 所 示 。 


nm wek emm d werk 全 连接 层 
图 6.16 ”典型 的 卷 积 神经 网 络 模型 

需要 特别 注意 的 是 ， 卷 积 神经 网 络 是 一 种 三 维 的 层 结构 ， 每 层 中 的 神经 元 是 按照 三 维 
排列 的 ， 具 有 宽度 、 高 度 和 深度 。 

其 中 ， 输 入 层 的 宽度 和 高 度 对 应 于 输入 图 像 的 宽度 和 高 度 ， 深 度 默认 为 1。 

卷 积 层 完成 对 原始 图 像 的 卷 积 操作 ， 从 而 得 到 特征 映射 Feature Map)。 在 图 6.16 所 示 
的 模型 中 ， 在 卷 积 层 中 设置 Filter 为 3， 因 此 获取 到 3 个 特征 映射 Feature Map). 

池 化 层 对 输入 的 Feature Map 做 下 采样 ， 减 少 每 层 的 样本 数量 ， 得 到 3 个 更 小 的 Feature 
Map。 然 后 继续 进行 卷 积 层 、 池 化 层 处理 。 

最 后 ， 通 过 全 连接 神经 网 络 得 到 整个 网 络 的 输出 。 


[6.5.2 sex 


在 卷 积 层 中 ， 通 过 在 原始 图 像 上 平移 一 块 块 卷 积 核 来 提取 特征 ， 每 一 个 特征 就 是 一 个 
特征 映射 。 

1. 卷 积 操 作 

卷 积 层 中 最 重要 的 操作 就 是 卷 积 操作 。 

卷 积 是 泛 函 分 析 中 的 一 种 积分 变换 ， 是 通过 两 个 函数 /和 g 生 成 第 三 个 函数 的 一 种 数 
学 运算 ， 表 示 函 数 / 和 g 经 过 翻转 和 平移 后 重合 部 分 的 面积 。 用 数学 公式 可 以 表示 为 : 


0-97 [ fg -04 
这 种 表示 方式 针对 的 是 变量 ?处 于 连续 域 的 情况 ， 对 于 离散 域 来 说 ， 对 应 的 数学 表达 
RA: 


09 四 = M. fgn- m) 


m=- 


在 离散 域 中 进行 操作 时 ， 卷 积 核 是 非常 重要 的 一 个 元 素 。 卷 积 核 采取 m Xn 阶 和 矩阵 ， 
为 了 便于 计算 一 般 采 用 n=m。 

卷 积 操作 主要 完成 以 下 操作 : 首先 将 相应 的 元 素 乘 上 卷 积 核 ， 每 个 像素 乘 一 次 ， 然 
后 将 所 有 的 值 相 加 ， 最 后 把 相 加 后 的 结果 赋值 给 中 心 像素 。 移 动 卷 积 和 矩阵 ， 应 用 相同 的 操 
作 ， 直 到 所 有 的 元 素 都 完成 遍历 。 


ael 
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2. 卷 积 运算 

将 卷 积 操作 应 用 到 神经 网 络 计算 中 ， 就 可 以 增强 像素 与 其 周围 像素 的 联系 ， 而 隐藏 与 
其 他 像素 的 关系 。 

对 于 原始 图 片 ， 经 过 卷 积 核 的 运算 过 程 可 以 表述 如 下 : 假定 存在 一 张 原始 图 片 ， 选 用 
一 个 mXn 阶 和 矩阵 作为 卷 积 核 ， 最 终 得 到 wXh 阶 的 特征 映射 ， 如 图 6.17 所 示 。 


原始 图 片 


GU mXn 特征 映射 wX 天 
图 6.17 RHA 
为 了 便于 说 明 具 体 的 计算 过 程 ， 我 们 对 各 元 素 进行 编号 。 
O 对 图 像 的 每 个 像素 进行 编号 ， 假 定 用 x; ,表示 原始 图 片 中 的 第 ; 行 第 j 列 元 素 。 
O 对 卷 积 核 的 每 个 权重 进行 编号 ， 用 w,, 表 示 第 m 行 第 n 列 的 权重 值 ， 用 w, 表 示 卷 积 
核 的 偏 置 项 。 
O 对 生成 的 特征 映射 的 每 个 元 素 进行 编号 ， 用 a 表示 特征 映射 的 第 i 行 第 7 列 元 素 。 
用 / 事 示 激活 函数 ， 卷 积 的 计算 公式 如 下 : 


M-1N-1 


Qjj — 193 > WmnXim,j4n + Wp) 


m=0 n=0 
从 计算 公式 可 以 看 出 ， 生 成 的 特征 映射 中 的 每 个 元 素 只 与 原始 图 片 中 卷 积 核 大 小 的 周 
围 像素 有 关 。 特 征 映射 的 灰色 块 只 与 原始 图 片 中 的 灰色 块 有 关 。 
计算 得 到 特征 映射 中 的 一 个 元 素 值 后 ， 再 进行 下 一 个 元 素 值 的 计算 ， 此 时 因为 权重 值 
共享 原则 ， 只 需要 平移 卷 积 核 而 不 需要 调整 权重 值 即 可 进行 计算 。 平 移 卷 积 核 的 步 幅 可 以 
设置 为 任意 值 ， 一 般 都 默认 设置 为 1 。 
通过 不 断 地 平移 卷 积 核 ， 最 终生 成 wXh 阶 的 特征 映射 。 
生成 的 特征 映射 的 大 小 由 原始 图 像 大 小 、 卷 积 核 大 小 以 及 平移 步 幅 决定 。 假 定 卷 积 的 
原始 图 像 的 宽度 是 w,， 卷 积 核 的 宽度 是 F， 平 移 步 幅 是 S$。 在 平移 时 ， 原 始 图 像 的 边缘 像素 
可 能 需要 对 周围 采用 补 0(Zero Padding) 操 作 才能 满足 计算 要 求 。Zero Padding 数 量 为 P。 
卷 积 后 生成 的 特征 映射 的 宽度 w 可 表示 为 : 
yon Et, 
S 


1 


o 


Err 


同 理 ， 卷 积 后 生成 的 特征 映射 的 高 度 有 可 表示 为 : 


h -F+2P 
=—=— +l 
h S 


3. 多 深度 卷 积 操作 
前 面 已 经 介绍 了 深度 为 1 的 卷 积 层 计算 方法 。 如 果 卷 积 层 深度 D 大 于 1， 对 应 的 卷 积 核 
深度 也 必须 为 D， 即 拥有 D 个 不 同 的 卷 积 核 ， 卷 积 的 计算 公式 为 : 
D-1 M-1 N-1 
aaij=f 93 X X VamnXdismjsn + Wp) 
d=0 m=0 n=0 
在 运算 过 程 中 ， 每 一 个 卷 积 核 都 需要 和 原始 图 像 进行 卷 积 运算 ， 从 而 得 到 对 应 的 特征 
映射 。 所 以 ， 经 过 深度 为 4 的 卷 积 层 后 ， 特 征 映射 的 深度 也 是 d。 
4. TensorFlow 卷 积 函数 
卷 积 操作 是 构建 神经 网 络 的 重要 支撑 ，TensorFlow 提 供 了 丰富 的 卷 积 函数 ， 可 便捷 地 
实现 卷 积 计算 。 
对 于 二 维 的 图 像 输入 来 说 ， 主 要 包括 以 下 3 个 卷 积 函数 : 


tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 
tf.nn.depthwise conv2d(input, filter, strides, padding, name-None) 
tf.nn.separable conv2d(input, depthwise filter, pointwise filter, strides, padding, name-None) 


(1) t£.nn.conv2d(input, filter, strides, padding, use cudnn on gpu-None, name-None) 

这 是 最 典型 的 一 个 卷 积 函数 ， 用 于 对 输入 数据 input 和 卷 积 核 flter 进 行 操作 ， 计 算 卷 积 
的 结果 。 

口 参数 input 

表示 输入 的 图 像 值 ， 数 据 格式 是 张 量 。 张 量 中 的 数据 类 型 必须 是 float32 或 float64。 作 
为 输入 数据 ， 张 量 被 限定 为 数据 的 格式 ， 格 式 为 [batch, in height, in width, in channels]. 


其 中 ，batch 是 输入 图 片 的 数量 ，in_height 是 图 像 的 高 度 ，in_width 是 图 像 的 宽度 ，in_ 


channels 是 通道 数 。 黑 白 图 像 的 通道 为 !， 彩 色 图 像 的 通道 为 3。 

例如 ， 假 定 输 入 的 图 像 为 9 像素 X9 像 素 的 彩色 图 像 (RGB)， 则 张 量 定义 为 
[batch,9,9,3]。 

口 参数 filter 

表示 进行 运算 时 的 卷 积 核 ， 数 据 格式 也 是 张 量 。 张 量 中 的 数据 类 型 必须 与 输入 的 数据 
类 型 相同 。 作 为 运算 时 的 卷 积 核 ， 也 被 限定 了 数据 格式 ， 格 式 为 [filter height, filter width, 
in channels, out channels]， 分 别 对 应 于 卷 积 核 矩 阵 的 高 度 、 宽 度 以 及 输入 图 像 的 通道 数 、 
卷 积 核 个 数 。 

口 参数 strides 

表示 每 一 维 对 应 的 是 输入 中 每 一 维 的 对 应 移动 步 幅 ， 是 一 个 长 度 为 4 的 一 维 整 型 
数组 。 


于 在 实际 计算 过 程 中 ， 通 常 不 会 对 原始 图 片 的 数据 和 通道 进行 卷 积 操作 ， 即 不 对 输 
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入 的 第 一 维和 第 四 维 进行 卷 积 操 作 ， 因 此 通常 将 strides 定 义 为 [1, X, X, 1] 。 


O 参数 padding 
表示 在 进行 卷 积 计算 时 ， 采 用 卷 积 核 提取 特征 映射 的 方式 ， 取 值 为 SAME 或 VALID。 
在 平移 卷 积 核 时 ， 由 于 移动 步 幅 不 一 定 能 整除 整个 图 片 的 像素 宽度 ， 因 此 将 越过 边缘 


取样 的 方式 称 为 Same Padding， 所 取样 的 面积 和 输入 图 像 的 像素 宽度 一 致 ， 将 把 不 越过 边 
缘 取 样 的 方式 称 为 Valid Padding， 所 取样 的 面积 小 于 输入 图 像 的 像素 宽度 。 


SAME 对 应 于 Same Padding 方 式 ， 输 入 数据 维度 和 输出 数据 维度 相同 ， VALID 对 应 于 


Valid Padding 方 式 ， 输 入 数据 维度 和 输出 数据 维度 不 同 。 
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Cj ”参数 use_ cudnn_ on gpu 

表示 是 否 使 用 GPU 进行 运算 ， 默 认 情况 下 为 True。 

O 参数 name 

表示 操作 的 名 称 ， 使 用 时 进行 自 定义 。 

例如 ， 对 10 张 5 像素 X 5 像素 的 彩色 图 像 (RGB) 进 行 卷 积 操 作 。 卷 积 核 选择 3X3 的 大 
使 用 该 卷 积 函数 进行 简单 的 计算 操作 ， 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 import os 

03 import numpy as np 

04 input_data= tf.Variable(np.random.rand(10,5,5,3),dtype=np.float32) 

05 fiter_data=tf.Variable(np.random.rand(3,3,3,1),dtype=np.float32) 

06 y=tf.nn.conv2d(input_data,fiter_data,strides=[1,3,3,1],padding='SAME') 
07 print( 答 出 的 结果 为 : , y) 


运行 上 述 代码 ， 显 示 如 下 : 
输出 的 结果 为 : Tensor("Conv2D:0", shape=(10, 2, 2, 1), dtype=float32) 


(2) t£nn.depthwise conv2d(input, filter, strides, padding, name-None) 
同样 ， 该 卷 积 函数 也 将 使 用 输入 维度 为 [batch, in height, in width, in channels]If]3K 
通过 卷 积 核 维 度 [filter_height, filter width, in channels, channel_multiplier] 进 行 运算 。 


其 中 ，in_channels 上 的 卷 积 核 通道 为 1， 该 卷 积 函数 将 不 同 的 卷 积 核 独 立地 应 用 于 通道 


channel multiplier 上 ， 然 后 对 所 有 的 结果 进行 汇总 。 最 后 的 输出 有 in_channelsXchannel_ 
multiplier 个 通道 。 


使 用 该 卷 积 函 数 对 10 张 为 5 像素 X 5 像素 的 彩色 图 像 (RGB) 进 行 卷 积 操作 ， 具 体 实现 


如 下 : 


01 import tensorflow as tf 

02 import os 

03 import numpy as np 

04 input data- tf. Variable(np.random.rand(10,5,5,3),dtype-np.float32) 

05 filter data-tf.Variable(np.random.rand(3,3,3,4),dtype-np.float32) 

06 y = tf.nn.depthwise conv2d(input data,filter data,strides-[1,3,3,1],padding-'SAME") 
07 print( 输 出 的 结果 为 : ,y) 


运行 上 述 代码 ， 显 示 如 下 : 

输出 的 结果 为 : Tensor("depthwise:0", shape=(10, 2, 2, 12), dtype=float32) 

(3) tf.nn.separable conv2d(input, depthwise filter, pointwise filter, strides, padding, 
name-None) 

该 卷 积 函数 利用 几 个 分 离 的 卷 积 核 进行 卷 积 运算 。 其 中 ，depthwise_ filter 的 数据 维度 
是 四 维 [filter height, filter width, in channels, channel mnultiplierl]。pointwise_ filter 的 数据 维 
度 也 是 四 维 [1,1,channel multipliter*in channels,out channels]， 是 depthwise _filter 卷 积 之 后 
的 混合 卷 积 。 

使 用 该 卷 积 函数 进行 简单 的 计算 操作 ， 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 import os 

03 import numpy as np 

04 input data tf. Variable(np.random.rand(10,5,5,3),dtype-np.float32) 

05 depthwise filter-tf.Variable(np.random.rand(3,3,3,4),dtype-np.float32) 
06 pointwise filter = tf. Variable(np.random.rand(1,1,12,20),dtype-np.float32) 
07 y = t.nn.separable conv2d(input data,depthwise filter,pointwise filter, 
strides-(1,3,3,1],padding-'SAME") 

08 print( 答 出 的 结果 为 : , y) 


运行 上 述 代码 ， 显 示 如 下 : 
输出 的 结果 为 : Tensor("separable_conv2d:0", shape=(10, 2, 2, 20), dtype=float32) 


(4) t£nn.atrous conv2d(value, filter, rate, padding, name-None) 
于 计算 atrous 卷 积 ， 又 称 为 扩张 卷 积 。 

(5) t£nn.conv2d transpose(value, filter, output_shape,strides,padding='SAME',data_format 
—NHWC',name-None) 

用 于 计算 ttnn.conv2d0 的 转 置 。 

(6) tf.nn.conv3d(input, filter, strides, padding, name=None) 
用 于 计算 多 深度 卷 积 计算 ， 使 用 方法 和 攻 nn.conv2d0 类 似 ， 只 是 input 的 数据 维度 shape 
为 五 维 ， 多 了 一 维 in_depth， 格 式 为 [batch, in depth, in height, in width, in channels]. JH 
应 的 filter 数 据 维 度 shape 也 是 五 维 ， 多 了 一 维 filter_depth， 格 式 为 [filter_depth, filter height, 
in_channel,channel_multiplier]。 同 时 ，strides 的 维度 shape 中 也 为 五 维 ， 多 了 一 维 strides_ 
depth， 格 式 为 [strides_batch, strides_depth, strides_height, strides_width, strides channel]. 

(7) tf.nn.conv3d_ tranpose(value, filter, output shape, strides, padding-'SAME', name-None) 

5jtf.nn.conv2d transpose() 类 似 ， 用 于 计算 tfnn.conv3d0 的 转 置 。 


池 化 层 


池 化 层 一 般 都 被 应 用 于 卷 积 层 的 下 一 层 ， 主 要 的 作用 是 下 采样 ， 通 过 去 掉 特征 映射 中 
不 重要 的 样本 ， 进 一 步 减 少 参数 数量 ， 降 低 网 络 的 复杂 度 。 
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1. 池 化 操作 

池 化 操作 就 是 利用 矩阵 窗口 在 输入 张 量 上 进行 扫描 ， 将 每 个 矩阵 窗口 中 的 值 通过 池 化 
方法 运算 后 取得 相应 的 值 ， 作 为 池 化 后 的 值 ， 以 减少 参数 。 
常用 的 池 化 方法 有 最 大 值 池 化 (max pooling) 和 平均 值 池 化 (average pooling) 两 种 。 其 
中 ， 最 大 值 池 化 就 是 在 zXz 的 样本 中 取 最 大 值 作为 采样 后 的 样本 值 ， 而 平均 值 池 化 就 是 在 
nXn 的 样本 中 取 各 样本 的 平均 值 作为 采样 后 的 样本 值 。 

对 于 深度 为 D 的 特征 映射 ， 各 层 独 立 进行 池 化 ， 因 此 池 化 后 的 深度 仍然 为 D。 

2. 池 化 函数 

池 化 函数 是 降低 卷 积 神经 网 络 计算 复杂 度 的 重要 方法 ， 在 TensorFlow 中 提供 了 相应 的 
卷 积 函数 来 便捷 地 实现 卷 积 计 算 。 


tf.nn.avg. pool(value, ksize, strides, padding, name=None) 
tf.nn.max pool(value, ksize, strides, padding, name-None) 


(1) t£nn.avg pool(value,ksize,strides,padding,name-None) 

使 用 平均 值 池 化 方法 对 池 化 区 域 中 的 元 素 进行 操作 。 

口 参数 value 

一 般 来 说 ， 输 入 值 是 卷 积 之 后 的 特征 映射 ， 它 是 一 个 四 维 的 张 量 ， 数 据 维度 为 [batch, 
height, width, channels]。 

口 参数 ksize 

池 化 窗口 是 一 个 长 度 不 小 于 4 的 整 型 数组 ， 每 一 位 的 值 对 应 于 输入 数据 张 量 中 每 一 
维 [batch,height, width, channels] 的 窗口 对 应 值 。 一 般 来 说 ， 不 会 在 batch 和 channels 上 进 
行 池 化 ， 所 以 将 这 两 个 维度 设 为 1。 这 样 ， 参 数 ksize 一 般 设置 为 [1, height, weight, 1]。 

O 参数 strides 
平移 步 长 是 一 个 长 度 不 小 于 4 的 整 型 数组 ， 指 定 滑动 窗口 在 输入 数据 张 量 中 每 一 维 
上 的 步 长 。 一 般 来 说 ， 不 会 在 batch 和 channels 上 进行 池 化 ， 所 以 将 这 两 个 维度 设 为 1。 这 
样 ， 参 数 strides 一 般 设置 为 [1, stride, stride, 1]。 

口 参数 padding 

同 卷 积 函数 中 的 padding 规 则 相同 ， 取 值 为 SAAME 或 VALID。 

口 输出 

输出 为 池 化 降 维 后 的 特征 映射 ， 数 据 类 型 和 输入 值 value 保 持 一 致 。 池 化 后 的 维度 计 
算 公式 为 : 


i shap(value) —ksize 41 
strides 
(2) t£nn.max pool(value,ksize,strides,padding,name-None) 


使 用 最 大 值 池 化 方法 对 池 化 区 域 中 的 元 素 进行 操作 。 各 参数 与 tf.nn.avg_pool() 方 
法 中 的 类 似 。 
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[6.5.4 全 连接 神经 网 络 层 


经 过 前 面 的 多 重 卷 积 层 、 池 化 层 处 理 之 后 ， 将 最 终 池 化 层 的 输出 神经 元 节点 与 最 终 的 
层 构 建成 全 连接 神经 网 络 层 即 可 。 


[6.5.5 着 神经 网 络 的 发 展 


卷 积 神经 网 络 最 早 由 LeCun 在 1989 年 提出 ， 其 中 详尽 介绍 了 什么 是 卷 积 神经 网 络 、 为 
什么 要 卷 积 以 及 为 什么 要 池 化 等 相关 内 容 。 

LeCun 在 1998 年 继续 发 展 卷 积 神经 网 络 ， 他 提出 了 LeNet 卷 积 神经 网 络 模型 。LeNet 卷 
积 神经 网 络 模型 包括 两 个 卷 积 层 、 两 个 池 化 层 和 一 个 全 连接 层 ， 这 与 本 节 中 讲解 的 卷 积 神 
经 网 络 基 础 模型 相似 。 但 由 于 当时 运算 速度 受 限 ， 没 有 得 到 足够 的 重视 和 实际 应 用 。 

直到 2012 年 ，AlexNet 卷 积 神经 网 络 模型 的 提出 ， 才 带 来 卷 积 神经 网 络 在 图 形 处 理 方 
面 的 突破 。 

AlexNet 卷 积 神经 网 络 由 5 个 卷 积 层 、5 个 池 化 层 和 3 个 全 连接 层 组 成 ， 最 后 通过 全 连接 
层 的 输出 被 发 送 到 1000 维 的 softmax 层 ， 产 生 1000 类 的 标记 分 布 。 网 络 结构 如 图 6.18 所 示 。 
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图 6.18 ”AlexNet 卷 积 神经 网 络 模型 

在 该 模型 中 ， 主 要 在 以 下 三 方面 进行 了 改进 。 

(1) 进行 数据 增强 

增加 训练 数据 可 以 有 效 提升 算法 的 准确 率 ， 而 且 也 是 避免 过 拟 合 的 好 方法 。 在 训练 
数据 有 限 的 情况 下 ， 可 以 通过 对 一 些 数 据 进 行 变形 生成 新 的 数据 。 比 如 针对 图 片 的 水 平 翻 
转 、 随 机 平移 、 变 换 部 分 图 像 以 及 给 图 像 增 加 随机 的 光照 等 。 

(2) Dropout 

在 该 模型 中 ， 以 0.5 的 概率 对 每 个 隐 层 神经 元 进行 “休眠 ”， 将 输出 设置 为 0。 以 这 种 
方式 抑制 神经 元 工作 ， 让 这 部 分 神经 元 既 不 参与 前 向 传播 也 不 参与 反 向 传播 。 这 使 得 每 次 
输入 一 个 样本 ,就 相当 于 让 神经 网 络 尝试 一 个 新 结构 ， 从 而 降低 神经 元 复杂 的 互 适应 关 
系 ， 而 且 神 经 网 络 也 更 为 健壮 ， 避 免 了 大 量 的 过 拟 合 情 况 。 

(3) relu 激 活 函 数 

该 模型 使 用 relu 激 活 函数 替代 之 前 流行 的 sigmoid 函 数 ， 使 得 在 SGD 的 收敛 速度 上 比 
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sigmoid 函 数 快 很 多 。 

同时 ， 由 于 GPU 和 大 数据 的 发 展 ， 在 计算 速度 和 训练 数据 上 ， 本 身 就 比 之 前 的 学 习 环 
境 好 很 多 。 

在 此 之 后 ， 卷 积 神经 网 络 不 断 演 化 ， 主 要 包括 4 个 方向 : 网 络 加 深 、 增 强 卷 积 层 功 
能 、 从 分 类 任务 到 检测 任务 以 及 增加 新 的 功能 模块 。 

对 于 网 络 加 深 ， 是 对 AlexNet 卷 积 神经 网 络 继续 增加 隐 层 。 例 如 VGGNet， 通 常 有 
16~19 层 。 但 是 ， 随 着 卷 积 神经 网 络 的 层 数 达 到 16 层 之 后 ， 已 经 达到 准确 率 提升 的 瓶颈 ， 
继续 增加 网 络 层 数 也 很 难 提升 准确 率 。 

对 于 增强 卷 积 层 功能 ， 最 初 在 论文 Network In Network 中 提出 ， 主 要 针对 传统 卷 积 方 
法 做 了 两 点 改进 : 一 是 将 原来 的 线性 卷 积 层 变 为 多 层 感知 卷 积 层 ， 二 是 将 全 连接 层 改 进 为 
全 局 平均 池 化 。 后 来 Google 公 司 提出 了 GoogLeNet 模 型 ， 通 过 增加 卷 积 层 的 深度 和 宽度 来 
增强 卷 积 层 功 能 。 在 深度 上 ， 增 加 了 卷 积 神经 网 络 层 数 ， 层 数 达到 22 层 。 为 了 避免 梯度 消 
失 问题 ，GoogLeNet 模 型 在 不 同 深度 增加 了 两 个 损失 函数 来 避免 反 向 传播 时 的 梯度 消失 现 
象 。 在 宽度 上 ， 增 加 了 多 种 大 小 的 卷 积 核 ， 但 并 不 将 这 些 全 都 用 在 特征 映射 中 ， 而 是 采取 
降 维 模型 ， 在 3X3、5X5 卷 积 之 前 ， 以 及 最 大 池 化 后 ， 都 分 别 加 上 1X 1 的 卷 积 核 ， 以 此 达 
到 降低 特征 映射 的 目的 。 通 过 算法 的 设计 ， 将 网 络 加 深 和 增强 卷 积 功能 结合 起 来 ， 开 发 
了 ResNet 模 型 。 

对 于 从 分 类 任务 到 检测 任务 以 及 增加 新 的 功能 模块 ， 这 些 都 是 卷 积 神经 网 络 在 后 续 机 
器 学 习 实 践 中 不 断 发 展 的 方向 和 所 要 实现 的 功能 。 


| V 通 过 卷 积 神经 网 络 处 理 MINIST ^ 


在 6.5 节 中 ， 详 细 介绍 了 卷 积 神经 网 络 的 设计 模型 ， 并 详细 讲解 了 卷 积 层 (Convolution 
Layer) 和 池 化 层 (Pooling Layer) 的 计算 方法 以 及 TensorFlow 提 供 的 相关 函数 。 
在 本 节 中 将 通过 构建 卷 积 神经 网 络 模型 来 实现 对 MNIST 数 据 集 的 处 理 。 


6.6.1 pc ISPs 


对 于 MNIST 数 据 集 的 使 用 ， 我 们 需要 导入 input_ data.pyXc fF, fi Hl TensorFlow.contrib. 
learn.python.learn.datasets.mnist 中 的 read_data_sets 来 加 载 数据 。 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 import numpy as np 

03 import input_data 

04 def main( ): 

05 ”#0 载 MNIST 数 据 集 

06  mnist- input data.read data sets('data/, one_hot=True) 
07  trainimg = mnist.train images 

O8  trainlabel = mnist.train.labels 


fi 


03  testimg = mnist.test.images 
10  testlabel = mnist.test.labels 
11  print("MNIST ready") 


[6.6.2 构 尘 着 可 神经 网 络 模型 


卷 积 神经 网 络 模型 的 构建 主要 分 为 四 步 ， 分 别 是 构建 输入 层 、 隐 层 、 输 出 层 以 及 定义 
损失 函数 。 

对 于 隐 层 ， 我 们 构建 了 卷 积 层 1- 池 化 层 1- 卷 积 层 2- 池 化 层 2- 全 连接 神经 网 络 层 - 
Dropout 层 。 所 以 ， 构 建 的 整个 卷 积 神经 网 络 模型 如 图 6.19 所 示 。 


输入 层 SREL 池 化 层 1 着 积 层 2 池 化 层 2 全 连接 神经 网 络 ”Dropout 层 — 输出 层 


56.19 卷 积 神经 网 络 模型 的 设计 


1. 输入 层 
在 输入 层 中 ， 我 们 只 需要 明确 输入 数据 的 维度 即 可 。 对 于 MNIST 数 据 集 来 说 ， 输 入 的 
是 一 张 维 度 为 28X28=784 的 灰 度 图 ， 定 义 如 下 : 


01 n_input =784 # 维度 为 28 x 28 的 灰 度 图 ， 像 素 个 数 为 784 
02 x-tf.placeholder(tf.float32, [None, n. input]) 
2. 卷 积 层 1 


对 于 卷 积 层 1， 它 和 全 神经 网 络 中 输出 值 的 处 理 类似 ， 都 需要 依据 权重 和 偏 置 项 进行 
激活 函数 处 理 ， 可 以 表示 为 : 
y=ftconv( 权 重 X x) + 偏 置 项 ) 


首先 运行 卷 积 函数 ， 然 后 计算 偏 置 项 ， 最 后 进行 激活 函数 处 理 。 我 们 按照 此 顺序 来 完 
成 卷 积 层 1。 

我 们 使 用 卷 积 函数 tf.nn.conv2d(input, filter, strides, padding, use cudnn on gpu-None, 
name=None) 来 实现 。 
其 中 ，input 为 输入 层 的 输入 数据 ， 维 度 为 [batch, in_height, in_width, in_channels]， 需 
要 获取 输入 图 像 的 数量 、 高 度 、 宽 度 以 及 通道 数 。 

对 于 每 次 输入 图 像 的 数量 不 做 考虑 ， 标 识 为 -1。MNIST 数 据 集中 的 图 片 是 28 像 素 X28 
像素 的 灰 度 图 ， 图 片 的 长 宽 都 是 28 像 素 ， 灰 度 图 的 通道 是 1， 如 果 是 RGB 彩 图 ， 则 通道 为 
3。 所 以 输入 数据 为 : 


x image = tf.reshape(x, [-1, 28, 28, 1]) 
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filter 作 为 运算 时 的 卷 积 核 ， 维 度 格式 为 [filter height, filter width, in channels, out - 
channels]， 需 要 卷 积 核 矩 阵 的 高 度 、 宽 度 以 及 输入 图 像 的 通道 数 和 卷 积 核 个 数 。 

对 于 卷 积 核 矩 阵 ， 一 般 都 使 用 高 度 与 宽度 相同 的 和 矩阵， 而且 为 了 减少 计算 量 ， 大 小 一 
般 选 择 3、5 等 ， 在 这 里 选择 3。 输 入 图 像 为 灰 度 图 ， 通 道 为 1。 为 了 计算 机 运算 的 高 效 性 ， 
卷 积 核 的 个 数 一 般 选择 为 2 的 寡 ， 在 这 里 使 用 32。 所 以 卷 积 核定 义 为 : 

W_conv1=[3, 3, 1, 32] 


strides 是 平移 步 长 ， 对 于 每 一 维度 都 移动 一 步 ， 定 义 为 : 


strides=[1, 1, 1, 1] 


padding 是 卷 积 核 提取 特征 映射 的 方式 ， 一 般 选择 SAME 方 式 。 
所 以 ， 卷 积 层 1 的 卷 积 函数 实现 为 : 
tf.nn.conv2d(x, W_conv1, strides, padding-'SAME") 


对 于 激活 函数 ， 我 们 使 用 tfnn.relu0 函 数 。 
在 实现 时 ， 为 了 避免 固定 的 初始 权重 值 导致 出 现 固 有 误差 ， 在 初始 化 权重 值 时 ， 使 用 
正 态 分 布 获 取 随 机 值 作为 权重 的 初始 值 。 具 体 实现 如 下 : 


01 # 权 重 值 初始 化 函数 

02 def weight_variable(shape): 

O3 initial = tf.truncated normal(shape, stddev=0.1) 

04 return tf. Variable(initial) 

05 # 偏 置 项 初始 化 函数 

06 defbias variable(shape): 

07 initial = tt.constant(0.1, shape-shape) 

08 return tf. Variable(initial) 

09 # 郑 积 计算 函数 

10 def conv2d(x, W): 

11 return tf.nn.conv2d(x, W, strides7[1, 1, 1, 1], padding-'SAME") 
12 # 定 义 卷 积 神经 网 络 函数 

13 def CNN mnist(x): 

14 # 命 名 ,便于 可 视 化 展示 

15 with tf.name scope('reshape?: 

16 # 定 义 图 像 数据 

17 x image - tf.reshape(x, [-1, 28, 28, 1]) 

18 # 实 现 卷 积 层 1 

19 with tf.name scope('conv1?: 

20 W conv! = weight variable([3, 3, 1, 32]) # 卷 积 核 
21 b convi-bias variable([32]) 

22  h convi = tf.nn.relu(conv2d(x image, W conv1) + b conv1) 


3. 池 化 层 1 


相 比 于 卷 积 层 1， 池 化 层 1 更 简单 ， 可 以 使 用 最 大 值 池 化 函数 tfnn.max_pool(value， 
ksize, strides, padding, name=None) 进 行 处 理 。 
其 中 ，value 是 卷 积 层 的 输出 值 ， 池 化 层 1 可 直接 使 用 卷 积 层 1 的 输出 值 h_ conv1l。 
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ksize 是 针对 输入 值 每 一 个 维度 [batch,height, width, channels] 的 池 化 窗口 的 大 小 。 我 们 
不 对 batch 和 channels 维 度 进行 池 化 ， 而 是 对 height 和 width 选 择 使 用 2X2 的 窗口 进行 池 化 处 
理 ， 因 此 池 化 窗口 定义 为 : 

ksize=[1, 2, 2, 1] 

strides 是 在 输入 数据 张 量 每 一 维 [batch,height, width, channels] 上 的 平移 步 长 。 不 会 在 
batch 和 channels 上 进行 池 化 ， 所 以 将 这 两 个 维度 设 为 1。 设 置 height 和 width 的 移动 步 长 为 
2， 则 步 长 定义 为 : 

strides-(1, 2, 2, 1] 

padding 和 卷 积 函 数 中 的 padding 规 则 相同 ， 一 般 选 择 SAME 方 式 。 

因为 后 续 池 化 层 依然 使 用 这 一 方法 进行 池 化 ， 所 以 池 化 层 函 数 定义 为 

01 def max pool 2x2(x): 

02 retur tf.nn.max pool(x, ksize7[1, 2, 2, 1], strides-[1, 2, 2, 1], padding-'SAME") 

在 池 化 层 1 中 的 具体 实现 如 下 : 

01 with tf.name scope('pool1: 

02  h pool! = max pool 2x2(h conv1) 


4. 卷 积 层 2 与 池 化 层 2 
卷 积 层 2 与 卷 积 层 1 类 似 ， 最 主要 的 是 明确 运算 时 的 卷 积 核 。 依 然 选择 大 小 为 3 的 卷 积 
和 矩阵。 输入 值 为 池 化 层 1 的 输出 值 ， 有 32 个 特征 映射 ， 图 像 通 道 个 数 为 ?2。 卷 积 核 的 个 数 
在 卷 积 层 1 的 基础 上 有 所 增加 ， 使 用 的 是 64。 所 以 卷 积 核定 义 为 : 
W_conv1= [3, 3, 32, 64] 
池 化 层 2 与 池 化 层 1 类 似 ， 依 然 选 择 使 用 2X2 的 窗口 进行 池 化 处 理 。 
所 以 ， 卷 积 层 2 与 池 化 层 2 的 具体 实现 如 下 : 


01 # 定义 卷 积 层 2 以 及 池 化 层 2 

02 with t.name scope('conv2?: 

03  W conv2- weight variable([3, 3, 32, 64]) 

04 b conv2- bias variable([64]) 

05 h conv2- tf.nn.relu(conv2d(h pool1, W conv2) + b conv2) 
06 with tf.name scope('pool2?: 

07  h poof2 = max pool 2x2(h conv2) 


5. 全 连接 神经 网 络 层 

全 连接 神经 网 络 层 将 经 过 池 化 层 2 处 理 后 的 所 有 神经 元 节点 作为 全 连接 神经 网 络 的 输 
入 层 神经 元 。 所 以 ， 关 键 就 是 获得 池 化 层 2 处 理 后 的 神经 元 节点 的 个 数 。 
在 进行 池 化 层 2 处 理 后 ， 总 神经 元 节点 数 的 计算 公式 为 :单个 特征 映射 X 特 征 映射 个 
数 。 其 中 特征 映射 个 数 为 64 个 ， 单 个 特征 映射 由 原始 图 像 的 28X28， 经 过 一 次 池 化 后 为 
14X14， 经 过 第 二 次 池 化 后 为 7X7， 总 神经 元 节点 数 为 7X7X64 个 。 
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根据 全 连接 神经 网 络 的 计算 方法 ， 将 神经 元 节点 的 对 应 连接 线 的 权重 和 偏 置 项 进行 
下 处 理 ， 


AEX x+ 偏 置 项 
假定 后 续 的 Dropout 层 有 1024 个 节点 ， 使 用 relu 为 激活 函数 。 构 建 全 连接 神经 网 络 层 
具体 实现 如 下 : 


01 # 定 义 fc1， 将 两 次 池 化 后 的 神经 元 转换 为 1D 向 量 

02 with tf.name_scope('fc1'): 

03 W fc1- weight_variable([7 * 7 * 64, 1024]) 

04 b fci-bias variable([1024]) 

05  h pool2 flat = tf.reshape(h. pool2, [-1, 7*7*64]) 

06 Mh fc1 = tf.nn.relu(t.matmul(h pool2 flat, W fc1) + b fc1) 


6. Dropout 


在 全 连接 神经 网 络 中 ， 为 了 防止 或 减轻 过 拟 合 会 使 用 函数 tf.nn.dropout。 该 函数 的 
用 就 是 让 神经 网 络 中 的 神经 元 随机 出 现 “ 休 眼 ”， 让 这 些 “ 休 眠 ”的 神经 元 不 参与 神经 
络 模型 的 本 次 运算 。 通 过 这 样 的 方法 ， 使 得 每 输入 一 个 样本 进行 运算 时 ， 相 当 于 在 神经 
络 的 一 个 新 结构 中 进行 运算 ， 从 而 降低 了 出 现 过 拟 合 的 情况 。 具 体 实 现 如 下 : 


01 # 为 了 减轻 过 拟 合 ， 使 用 Dropout 层 

02 with tf.name scope('dropout): 

03 keep prob = tf.placeholder(tf.float32) 

04  h fci drop -tf.nn.dropout(h fc1, keep prob) 


7. 输出 层 


对 于 输出 层 ， 输 入 值 为 Dropout 层 的 输出 值 ， 有 1024 个 节点 。 输 出 为 MNIST 数 据 集 
的 0~9 共 10 个 分 类 ， 输 出 值 的 维度 为 10， 具 体 实现 如 下 : 

01 # 连 接 输出 层 

02 with tf.name_scope('fc2'): 

O3 W_fc2= weight variable([1024, 10]) 
04 b fc2-bias variable([10]) 
05 
06 
07 


y. conv = tf.matmul(h fc1 drop, W fc2) + b fc2 
print("CNN READY") 
return y. conv, keep prob 


8. 损失 函数 
对 于 损失 函数 ， 还 是 选取 最 常用 的 softmax 交 又 炉 损失 函数 。 所 以 ， 构 建 整 个 模型 
其 体 实现 如 下 : 


01 # 定 义 输入 placeholder 

02 x = tf.placeholder(tf.float32, [None, n. input]) 

03 y. = tf.placeholder(tf.float32, [None, n output]) # 用 于 保存 真实 的 label 
04 #j 进 行 卷 积 神经 网 络 训练 


如 
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05 y conv, keep_prob = CNN mnist(x) 

06 # 定义 损失 函数 

07 with tf.name scope(loss": 

08 cross entropy = tf.nn.softmax cross entropy with logits(labels-y ;logitszy conv) 
09 cross entropy - tf.reduce mean(cross entropy) 


10 # 优 化 器 
11 with tf.name scope('adam optimizer): 
12 train step = tf.train.AdamOptimizer(0.001).minimize(cross entropy) 


6.6.3] 进行 数据 训练 


接 下 来 进行 正式 的 数据 训练 。 使 用 小 批量 梯度 下 降 法 进行 优化 ， 总 迭代 1001 次 ， 每 训 
练 完 100 次 ， 输 出 当前 的 训练 状态 ， 具 体 实现 如 下 : 


01 # 定义 评测 准确 率 的 操作 

02 with tf.name_scope('accuracy'): 

03 correct prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1)) 
04 correct prediction = tf.cast(correct prediction, tf.float32) 

05 accuracy - tf.reduce mean(correct prediction) 

06 # 初始 化 所 有 参数 

07  init-tf.global variables initializer() 

08 sess -tf.Session() 

09  sess.run(init) 

10 training epochs = 1001 # 所 有 样本 和 迭代 1000 次 

11 batch size = 100 # 每 进行 一 次 选 代 选 择 100 个 样本 

12 display step = 100 

13  foriin range(training epochs): 

14 avg. cost = 0. 

15 total batch = int(mnist.train.num examples/batch size) 

16 batch = mnist.train.next batch(batch size) 

17 train. step.run(feed dict-[x:batch[0], y. :batch[1], keep prob:0.7]) 


6.6.4 EL 
使 用 测试 集 数 据 对 神经 网 络 模型 进行 评估 ， 在 每 完成 100 次 训练 后 ， 输 出 当前 模型 对 
于 训练 集 和 测试 集 的 准确 率 ， 具 体 实现 如 下 : 


01 ifi% display_step ==0: # 每 100 次 训练 ， 对 准确 率 进行 一 次 测试 
02 train accuracy = accuracy.eval(feed_dict={x: batch[0], y. : batch[1], keep. prob: 1.0}) 
03 print('step 96d, training accuracy 969' 96 (i, train. accuracy)) 
04 test accuracy = accuracy.eval(feed dict-(x:mnist.test.images, 
y .:mnist.test.labels, keep prob:1.0)) 
05 print('test accuracy 969' 96 (test. accuracy)) 


运行 上 述 代 码 ， 可 以 看 到 在 训练 过 程 中 准确 率 的 提升 情况 ， 如 图 6.20 所 示 。 


az 
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Saving graph to: C:\Users\ADMINI~1\AppData\Local\Temp\tmp4n38or9p 
step 0, training accuracy 0.21 
test accuracy 0.1198 

step 100, training accuracy 0.87 
test accuracy 0.8818 

step 200, training accuracy 0.9 
test accuracy 0.9301 

step 300, training accuracy 0.95 
test accuracy 0.9468 

step 400, training accuracy 0.98 
test accuracy 0.9536 

step 500, training accuracy 0.96 
test accuracy 0.9598 

step 600, training accuracy 0.98 
test accuracy 0.9637 

step 700, training accuracy 0.93 
test accuracy 0.9664 

step 800, training accuracy 0.99 
test accuracy 0.9705 

step 900, training accuracy 0.99 
test accuracy 0.9717 

step 1000, training accuracy 0.97 
test accuracy 0.973 


图 6.20 ”查看 准确 率 的 提升 情况 


可 以 看 到 ， 对 于 测试 集 的 准确 率 达 到 97% 以 上 ， 并 且 还 在 上 升 。 所 以 ， 卷 积 神经 网 络 
是 目前 比较 好 的 图 像 识别 算法 。 


G7 循环 神经 网 络 A 


循环 神经 网 络 (Recurrent Neural Network，RNN) 是 在 自然 语言 处 理 领域 中 最 先 被 使 用 
的 处 理 模型 ， 在 自然 语言 处 理 方面 有 着 良好 的 应 用 。 

接 下 来 将 详细 介绍 循环 神经 网 络 及 其 常见 模型 ， 并 使 用 一 个 循环 神经 网 络 来 实现 对 
MNIST 数 据 集 的 识别 。 


[6.7.1 6ssemem 


在 前 面 章 节 中 介绍 了 全 连接 神经 网 络 和 卷 积 神经 网 络 。 在 训练 和 预测 阶段 ， 它 们 都 
只 单独 地 取出 每 个 输入 ， 经 过 处 理 后 给 出 输出 ， 前 一 个 输入 和 后 一 个 输入 是 完全 没有 关系 
的 ， 在 输入 上 是 可 以 随机 的 。 

但 是 ， 某 些 任务 需要 前 一 个 输入 和 后 一 个 输入 有 关联 关系 。 比 如 ， 当 我 们 在 理解 一 名 
话 的 意思 时 ， 孤 立地 理解 这 句 话 的 每 个 词 是 不 够 的 ， 我 们 需要 处 理 这 些 词 连接 起 来 的 整个 
序列 ， 当 我 们 处 理 视频 时 ， 也 不 能 只 单独 去 分 析 每 一 帧 ， 而 要 分 析 这 些 帧 连接 起 来 的 整个 
序列 。 

循环 神经 网 络 在 基础 神经 网 络 模型 中 增加 了 循环 机 制 ， 使 得 信号 从 一 个 神经 元 传递 到 
另 一 个 神经 元 后 ， 其 值 并 不 会 马上 消失 ， 而 是 继续 存活 ， 以 此 达到 之 前 输入 与 后 续 输入 相 


关联 的 目的 。 在 构造 循环 神经 网 络 模型 时 ， 不 再 像 
仅仅 在 输入 层 到 输出 层 的 每 层 之 间 进 行 连接 ， 而 且 


mers 


全 连接 神经 网 络 和 卷 积 神经 网 络 一 样 ， 
还 将 隐 层 的 内 部 神经 元 连接 起 来 ， 使 得 


隐 层 的 输入 不 仅仅 包括 上 一 层 的 输出 ， 还 包括 上 一 时 刻 隐 层 的 输出 。 


对 了 


输出 层 


隐 层 


输入 层 


时 间 2 


图 6.21 ”循环 神经 网 


循环 神经 网 络 模型 ， 如 果 按照 时 间 顺 序 展开 ， 网 络 模型 如 图 6.21 所 示 。 


3 
络 模型 


对 于 时 间 点 为 2 的 步骤 ， 输 入 值 既 包括 来 自 输入 层 的 值 ， 也 包括 来 自前 一 步 (时 间 点 为 


1) 的 隐 层 的 值 。 


6.7.2 基本 循环 神经 网 络 


基本 循环 神经 网 络 模型 由 一 个 输入 层 、 一 个 隐 层 和 一 个 输出 层 组 成 。 


1. 输入 值 与 输出 值 
对 于 基本 循环 神经 网 络 中 的 隐 层 而 言 ， 它 的 输 
身上 一 时 刻 的 输出 值 。 相 应 的 输出 值 需要 输出 到 
的 隐 层 使 用 ， 如 图 6.22 所 示 。 


E 


输出 层 


入 值 既 有 来 自 输入 层 的 输入 ， 也 有 隐 层 
输出 层 ， 并 进行 临时 保存 ， 留 给 下 一 时 


输入 层 


in 
图 6.22 ”基本 循环 神经 网 络 模型 
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其 中 ，in 是 一 个 向 量 ， 表 示 输 入 层 的 值 ，s 也 是 一 个 向 量 ， 表 示 隐 层 的 计算 值 ，out 仍 
是 一 个 向 量 ， 表 示 输 出 层 的 值 。 

静 是 输入 层 到 隐 层 的 权重 算 阵 ， 静 是 隐 层 到 输出 层 的 权重 矩阵 ， 静 则 是 将 隐 层 上 一 
时 刻 的 值 作为 这 一 时 刻 的 输入 时 的 权重 。 可 以 看 出 ， 基 本 循环 神经 网 络 是 在 全 连接 神经 网 
络 的 基础 上 ， 增 加 了 权重 值 为 静 的 输入 s。 

对 于 这 样 的 循环 神经 网 络 而 言 ， 我 们 计算 1 时 刻 输出 层 的 值 Out,。 它 由 隐 层 的 输出 值 S, 
经 过 权重 矩阵 所 计算 后 ， 使 用 激活 函数 g 激 活 后 输出 。Out 可 以 表示 为 : 

Out, = g(W; - 51) 

上 述 表达 式 中 ， 隐 层 的 输出 值 $, 由 当前 时 刻 输入 层 的 输入 值 In, 和 上 一 时 刻 隐 层 的 输出 

值 $,, 分 别 经 过 权重 矩阵 计算 后 ， 使 用 激活 函数 了 激活 后 输出 。S5, 可 以 表示 为 : 
S,= f (W1 -Ing + Ws 5,4) 
Ee, TAHA Za HH E E Out 5s t 2a AN SERENA, KRUT: 
Out,= g(W; $i) 
= g(W; - fW, «m, + Wa: $e-1)) 
= g (Wa + f(W + Ine + Wa + moto + 51-2))) 

也 就 是 说 ， 循 环 神经 网 络 的 输出 值 与 前 面 历 次 的 输入 值 是 相关 联 的 。 

2. 循环 神经 网 络 的 训练 

循环 神经 网 络 的 训练 方法 所 使 用 的 BP 算 法 和 全 连接 神经 网 络 的 训练 方法 所 使 用 的 BP 
算法 类 似 ， 只 是 在 反 向 传播 中 ， 它 不 仅 依赖 于 当前 层 的 网 络 ， 还 依赖 于 前 面 若干 层 的 网 
络 ， 称 为 基于 时 间 的 反 向 传播 算法 (Back Propagation Trough Time，BPTT)， 主 要 包含 的 四 
个 步骤 如 下 : 

CD 前 向 计算 每 个 神经 元 的 输出 值 。 

Q) 反 向 计算 每 个 神经 元 的 误差 项 值 ， 它 是 误差 函数 E 对 神经 元 的 加 权 输 入 的 偏 导 数 。 

O 计算 每 个 权重 的 梯度 。 

@ 最 后 再 用 随机 梯度 下 降 法 更 新 权重 。 

3. 梯度 问题 

对 于 这 样 的 基本 循环 神经 网 络 ， 在 实践 中 并 不 能 很 好 地 处 理 较 长 的 序列 。 由 于 计算 
的 关联 性 ， 在 计算 级 联 的 梯度 时 ， 极 易 发 生 让 梯度 朝 着 非常 大 的 值 或 非常 小 的 值 发 展 的 情 
况 。 当 梯度 值 大 到 超出 参数 边界 的 情况 时 ， 会 造成 梯度 爆炸 问题 。 当 梯度 值 小 到 非常 小 的 
情况 时 ， 会 造成 梯度 消失 问题 。 
对 于 梯度 爆炸 问题 相对 容易 处 理 。 当 梯度 爆炸 时 ， 程 序 会 收 到 NaN 错 误 。 我 们 也 可 以 
设置 一 个 梯度 冰 值 ， 当 梯度 超过 这 个 阀 值 时 可 以 直接 截取 。 

而 对 于 梯度 消失 问题 就 比较 难 检 测 ， 也 更 难以 处 理 。 一 般 来 说 ， 可 通过 如 下 三 种 方法 
应 对 梯度 消失 问题 。 

1) 合理 地 初始 化 权重 值 。 初 始 化 权重 值 ， 使 每 个 神经 元 尽 可 能 不 要 取 极 大 值 或 极 小 
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值 ， 以 躲 开 梯度 消失 的 区 域 。 
2) 使 用 relu 代 替 sigmoid 和 tanh 作 为 激活 函数 ， 这 也 是 卷 积 神经 网 络 中 的 常见 做 法 。 
3) 使 用 其 他 结构 的 循环 神经 网 络 。 


长 短期 记忆 网 络 


我 们 知道 ， 使 用 基本 循环 神经 网 络 进行 训练 时 ， 很 难处 理 长 距离 的 依赖 ， 非 常 容易 产 
生 梯度 消失 或 梯度 爆炸 问题 。 

长 短期 记忆 网 络 (Long Short Term Memory Network，LSTM) 是 一 种 改进 后 的 循环 神经 
网 络 ， 它 成 功 解决 了 原始 循环 神经 网 络 的 缺陷 ， 成 为 当前 最 流行 的 RNN。 当 前 ，LSTM 已 
经 在 语音 识别 、 图 片 描述 和 自然 语言 处 理 等 许多 领域 得 以 成 功 应 用 。 

1.LSTM 模 型 

长 短期 记忆 网 络 的 思路 就 是 在 原始 RNN 的 隐 层 中 再 增加 状态 C， 这 样 就 可 以 保存 长 期 
状态 ， 而 不 必 依靠 每 次 的 计算 。LSTM 模 型 如 图 6.23 所 示 。 
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图 6.23 LSTM 模 型 


例如 在 三 2 时 刻 ，LSTM 的 输入 有 三 个 : 当前 时 刻 网 络 输入 层 的 输入 值 ， 上 一 时 刻 
LSTM 的 输出 值 有 1 以 及 上 一 时 刻 的 单元 状态 cl1。LSTM 的 输出 有 两 个 :当前 时 刻 LSTM 的 输 
出 值 及 和 当前 时 刻 的 单元 状态 c2。 

对 于 LSTM 模 型 而 言 ， 关 键 就 是 怎样 控制 长 期 状态 C。 在 LSTM 中 ， 设 计 了 一 个 单元 
(celD) 和 三 个 门 (gate) 来 实现 对 长 期 状态 C 的 控制 。 一 个 单元 有 一 个 状态 参数 ， 用 来 记录 状 
A: 三 个 门 分 别 是 输入 门 (input gate)、 输 出 门 (output gate) 和 遗忘 门 (forget gate)。 输 入 门 决 
定 当 前 时 刻 网 络 的 输入 有 多 少 保存 到 单元 状态 。 输 出 门 (output gate) 控 制 单元 状态 有 多 少 输 
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出 到 LSTM 的 当前 输出 值 。 遗 忘 门 决定 上 一 时 刻 的 单元 状态 有 多 少 保留 到 当前 时 刻 。 
2.LSTM 计 算 
LSTM 的 门 开关 决定 了 前 向 计算 时 的 结果 ， 整 个 前 向 计算 是 对 输入 值 X 分 别 进行 遗忘 
门 计算 、 输 入 门 计算 和 输出 门 计算 的 过 程 ， 如 图 6.24 所 示 。 


图 6.24 LSTM 计 算 


(1) 遗忘 门 

遗忘 门 处 理 的 数据 是 上 一 时 刻 的 短期 记忆 和 当前 时 刻 的 输入 。 对 这 两 个 数据 进行 计 
算 后 ， 使 用 sigmoid 函 数 判断 是 否 使 用 该 值 。 可 使 用 {时 刻 的 输入 值 和 t-1 时 刻 的 h 值 进行 计 
算 ， 计 算 表示 为 : 


t = 0(W; > [h4 4, X] + bp) 
Jp, WAERÜCGEMSOEAES, [haX HZ TE PS I6] CERE e SEE RIS, bé 
遗忘 门 的 偏 置 项 ， 使 用 sigmoid 函 数 进行 计算 。 
(2) 输入 门 
输入 门 处 理 的 数据 也 是 上 一 时 刻 的 短期 记忆 和 当前 时 刻 的 输入 。 对 这 两 个 数据 进行 计 
算 后 ， 使 用 sigmoid 函 数 判断 是 否 使 用 该 值 。 可 使 用 时 刻 的 输入 值 和 寻 -1 时 刻 的 jp 值 进行 计 
算 ， 计 算 表示 为 : 


it = o(Wi [he Xe] + bi) 
其 中 ， 歼 是 输入 门 的 权重 和 矩阵 ，[h, ,名 表示 把 两 个 向 量 连接 成 一 个 更 长 的 向 量 ，bi 是 
输入 门 的 偏 置 项 ， 使 用 sigmoid 函 数 进行 计算 。 
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(3) 输入 状态 
输入 状态 是 指 对 于 根据 上 一 时 刻 的 短期 记忆 和 当前 时 刻 的 输入 所 获取 的 更 新 信息 。 可 
数学 描述 为 : 
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Ct = tanh(W; - [he X] + be) 

(4) 长 期 记忆 状态 

长 期 记忆 状态 由 上 一 时 刻 的 长 期 状态 、 遗 忘 门 以 及 输入 门 、 新 的 输入 状态 共同 决定 。 
它 是 由 上 一 次 的 单元 状态 C,, 按 元 素 乘 以 遗忘 门 f， 再 用 当前 输入 门 记 按 元 素 乘 以 输入 的 单 
元 状态 Ct， 最 后 将 两 个 积 相 加 而 产生 的 ， 使 用 数学 描述 为 : 

C = fro Ci- + ico Ct) 

Hp, o RIE RERA fus SE ERE. 

对 于 长 期 记忆 ， 由 遗忘 门 和 输入 门 进行 共同 控制 。 由 于 遗忘 门 的 控制 ， 可 以 保存 很 久 
之 前 的 信息 。 由 于 输入 门 的 控制 ， 又 可 以 避免 当前 无 关 紧要 的 内 容 进入 记忆 。 

(5) 输出 门 

输出 门 处 理 的 数据 也 是 上 一 时 刻 的 短期 记忆 和 当前 时 刻 的 输入 。 对 这 两 个 数据 进行 计 
算 后 ， 使 用 sigmoid 函 数 判断 是 否 使 用 该 值 。 可 使 用 在 时 刻 的 输入 值 和 -1 时 刻 的 h 值 进行 
计算 ， 计 算 表 示 为 : 


0, = o(W, : [hi-, Xi] + bo) 
(6) 最 终 输出 
LSTM 最 终 输出 的 短期 记忆 值 由 输出 门 和 长 期 记忆 状态 确定 ， 数 学 表示 为 : 

ht = 0, ° tanh (C) 

对 于 LSTM 网 络 的 训练 ， 依 然 使 用 反 向 传播 算法 进行 网 络 训练 ， 更 新 权重 矩阵 。 
3. TensorFlow 的 LSTM 类 
在 TensorFlow 中 针对 RNN 提 供 了 多 种 方法 ， 特 别 是 针对 LSTM 提 供 了 一 些 相应 的 方 
主要 包括 : 


tf.contrib.rnn.BasicLSTMCell 

tf.contrib.rnn.MultiRNNCell 

tf.nn.dynamic rnn( cell, inputs, sequence length-None, initial statezNone, dtype-None, 
parallel iterations» None, swap memory-False, time major-False, scope-None) 


(1) t£nn.rnn cell.BasicLSTMCell(n hidden, forget bias-1.0, state is tuple-True) 
来 创建 最 基本 的 LSTM 网 络 单位 。 

O 参数 n_ hidden 

表示 神经 元 的 个 数 。 
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O “参数 forget_ bias 

表示 LSTM 中 遗忘 门 的 忘记 系数 。 如 果 等 于 1， 则 表示 不 会 忘记 任何 信息 。 如 果 等 于 
0， 则 表示 都 忘记 。 

Cj 参数 state is tuple 

返回 状态 的 表示 方式 ， 默 认 值 为 True。 当 state_ is_tuple=True 时 ， 前 面 讲 到 的 LSTM 网 
络 中 的 状态 C 和 就 是 分 开 记 录 的 ， 放 在 二 元 组 tuple 中 返回 否则， 按 列 连接 起 来 返回 。 
官方 建议 用 True。 

另外 ， 在 实际 使 用 中 还 需要 使 用 Cell 类 的 状态 初始 化 函数 zero_state(batch_size， 
dtype)。 其 中 ， 参 数 batch_size 就 是 输入 样本 批 次 的 数目 ，dtype 就 是 数据 类 型 。 

(2) tf.contrib.rnn. MultiRNNCell(cells, state is tuple=True) 
用 来 创建 多 个 cell 记 录 的 历史 信息 。 
(3) t£.nn.dynamic rnn(cell, inputs, sequence length-None, initial_state=None, dtype=None, 
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parallel iterations-None, swap memory-False, time major-False, scope-None) 
前 面 的 BasicLSTMCell 和 MultiRNNCell 方 法 用 于 创建 RNN 的 神经 元 ， 而 dynamic_rnn 方 
于 具体 执行 RNN 运 算 。 
口 参数 cell 
表示 RNN 节 点 ， 例 如 ， 前 面 使 用 BasicLSTMCell 方 法 创建 的 节点 。 
口 参数 inputs 
RNN 网 络 的 输入 值 。 需 要 注意 的 是 ， 如 果 参 数 time_major 为 False， 则 输入 张 量 的 维度 
必须 是 [batch_size, max time, .…]， 否 则 输入 张 量 的 维度 必须 是 [max_time, batch size, ...]. 
默认 情况 为 第 一 种 。 
口 参数 initial_state 
初始 化 RNN 节 点 的 状态 。 
口 返回 值 
dynamic rn 返回 两 个 变量 ， 第 一 个 是 每 个 步骤 的 输出 值 ， 第 二 个 是 最 终 的 状态 。 


双向 循环 神经 网 络 简介 


除了 前 面 介绍 的 循环 神经 网 络 外 ， 在 自然 语言 处 理 中 ， 我 们 还 会 经 常 遇 到 需要 通过 上 
下 文 环境 来 推导 的 情况 ， 这 不 仅仅 要 查看 前 面 的 词语 ， 还 需要 查看 后 面 的 词语 。 这 就 引出 
了 双向 循环 神经 网 络 ， 如 图 6.25 所 示 。 
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前 向 传播 状态 


反 向 传播 状态 


tl t [221 
图 6.25 ”双向 循环 神经 网 络 模型 
从 图 6.25 可 以 看 出 ， 双 向 循环 神经 网 络 的 隐 层 要 保存 两 个 值 ， 一 个 值 4 参与 正 向 计 
算 ， 另 一 个 值 4' 参 与 反 向 计算 。 最 终 的 输出 值 取决 于 4 和 4'。 计 算 方法 为 : 
Out, = g(Wz - At + W; - At) 
而 4 和 4' 的 计算 方法 为 : 
A,=f (Wi: In, + Wa: Aci) 
A7 fW Ine + W's: A't-1) 
也 就 是 说 ， 正 向 计算 时 ， 隐 层 的 值 与 前 向 传播 状态 有 关 ; 反 向 计算 时 ， 隐 层 的 值 与 反 
向 传播 状态 有 关 。 最 终 的 输出 取决 于 正 向 和 反 向 计算 的 和 。 
当前 ， 循 环 神经 网 络 除了 前 面 介绍 的 基本 循环 神经 网 络 、LSTM 循 环 神经 网 络 和 双向 
循环 神经 网 络 外 ， 还 有 GRU、CW-RNN、 深 度 双向 RNN 等 循环 神经 网 络 。 这 些 循 环 神经 
网 络 主要 从 基本 循环 向 两 个 方向 演化 : 一 是 对 隐 层 的 功能 逐渐 增强 ， 二 是 实现 网 络 的 双向 
性 和 加 深 。 
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在 6.7 节 中 ， 详 细 介 绍 了 循环 神经 网 络 的 设计 模型 ， 并 详细 讲解 了 基本 循环 神经 网 
络 、 长 短期 记忆 网 络 的 计算 方法 和 TensorFlow 提 供 的 一 些 相关 函数 。 
在 本 节 中 ， 我 们 将 通过 构建 LSTM 循 环 神 经 网 络 模型 来 实现 对 MNIST 数 据 集 的 处 理 。 
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6.8.1 加 载 MNISTil 练 数据 


对 于 MNIST 数 据 集 的 使 用 ， 需 要 导入 input data.py 文 件 ， 使 用 TensorFlow.contrib.learn. 


python.learn.datasets.mnist 中 的 read_data_sets 来 加 载 数 据 。 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 import numpy as np 

03 import input. data 

04 def main( ): 

05 jf 加 载 MNIST 数 据 集 

06  mnist- input data.read data sets('data/, one hot-True) 
07  trainimg = mnist.train.images 
08  trainlabel = mnist.train.labels 
O3  testimg = mnist.test.images 
10  testlabel = mnist.test.labels 
11  print("MNIST ready") 


[EE] sesememm 


对 于 神经 网 络 模型 的 构建 主要 可 分 为 四 步 ， 分 别 是 构建 输入 层 、 隐 层 、 输 出 层 以 及 定 


义 损失 函数 。 


在 本 例 中 ， 构 建 的 LSTM 网 络 模型 由 一 个 输入 层 、 一 个 全 连接 神经 网 络 层 、 一 个 


LSTM 层 和 一 个 输出 层 组 成 。 


由 于 MNIST 数 据 集中 的 每 一 个 图 片 文件 都 是 28 像 素 X28 像 素 ， 因 此 在 进行 RNN 分 类 
处 理 时 ， 可 以 把 图 片 的 每 行 看 成 一 个 输入 序列 ， 逐 行进 行 有 序 输入 。 对 于 RNN 而 言 ， 每 一 


步 输入 的 序列 长 度 为 28， 输 入 的 步 数 总 共 是 28 步 ， 因 此 ，RNN 的 基本 参数 定义 为 : 


01 # RNN 神 经 网 络 的 参数 

02 n input = 28 # 输入 层 的 数量 

03 n steps =28 

04 n_hidden = 128  £ 隐 层 的 数量 

05 n dasses-10 “”# 输出 的 数量 ， 因 为 是 分 类 问题 ， 这 里 一 共有 10 类 


输入 数据 及 各 种 权重 的 初始 化 定义 如 下 : 


01 x = tf.placeholder("float32", [None, n. steps, n_input]) 

02 y = tf.placeholder("float32", [None, n. classes]) 

03 # 随机 初始 化 每 一 层 的 权重 值 和 偏 置 值 

04 weights ={ 

05 "hidden: tf.Variable(tf.random normal([n input, n. hidden])), 
06  'out':tf.Variable(tf.random normal([n hidden, n classes])) 
07 } 

08 biases - ( 

09  'hidden' tf.Variable(tf.constant(0.1,shape-([n hidden, ]))), 
10  'out'tf.Variable(tf.constant(0.1,shape-([n classes,]))) 
n 


rer 


定义 循环 神经 网 络 模型 ， 主 要 包括 一 个 全 连接 神经 网 络 层 和 一 个 LSTM 层 。 

由 于 从 MNIST 数 据 集中 读 取 数 据 时 采取 分 批 读 取 的 方式 ， 因 此 每 批 次 读 取 的 数据 格式 
Zy(batch size, n steps, n inpubl。 为 了 实现 与 全 连接 神经 网 络 层 的 矩阵 乘法 ， 需 要 先 按照 全 
连接 神经 网 络 层 权重 矩阵 的 维度 对 输入 值 进行 矩阵 维度 的 调整 。 

完成 全 连接 神经 网 络 层 后 ， 进 行 LSTM 层 的 定义 。 由 于 循环 神经 网 络 要 求 输入 张 量 
的 维度 必须 是 [batch_size, max time, .….]， 因 此 还 需要 再 次 进行 数据 维度 的 调整 。 具 体 实 


现 如 下 : 
01 def RNN( X, weights, biases): 
02  Xc-tfreshape( X, [-1, n input]) 
03 。” # 输入 层 到 隐 层 ， 第 一 次 是 直接 运算 
04 X in-tfmatmul( X, . weights['hidden']) + _biases[hidden] 
05 «MAU 
06 Xin-tf.reshape(X in|[-1,n steps,n hidden]) 
07 ”# 之 后 使 用 LSTM 
08 Istm_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_bias=1.0,state_is_tuple=True) 
09 uen 
10 init state-Istm cell.zero state(batch size,dtype-tf.float32) 
11 ”# 使 用 dynamic_rnn 方 法 ,执行 RNN 运 算 
12 outputs, final state = tf.nn.dynamic rnn(Istm cell, X in, initial_state=init_state,time_ 
major-False) 
13 sium 
14  results-tf.matmul(final state[1], weights['out']) +  biases['out"] 
15 return results 


至 此 ， 完 成 了 循环 神经 网 络 模型 的 构建 ， 然 后 定义 损失 函数 。 使 用 常用 的 tf.nn. 
softmax_cross_entropy_with_logits() 方 法 ， 具 体 实现 如 下 : 


01 
02 
03 


# XE SURRAEERÉSUDUG (USE, APREA ASME, (Uf 7sik7SAdam 
cost = tf.reduce mean(tf.nn.softmax cross entropy with logits( logits=pred, labelszy)) 
optimizer = tf.train.AdamOptimizer(learning rate).minimize(cost) 


[6.8.3 进行 数据 训练 及 评估 模型 


接 下 来 进行 正式 的 数据 训练 。 使 用 小 批量 梯度 下 降 法 进行 优化 ， 对 循环 神经 网 络 模型 
的 准确 率 进行 评估 ， 具 体 实现 如 下 : 


# 进行 模型 评估 
correct. pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1)) 
accuracy - tf.reduce mean(tf.cast(correct pred, tf.float32)) 
# 初始 化 
init = tf.global_variables_initializer() 
# 开始 运行 
With tf.Session() as sess: 
sess.run(init) 
step=0 
# 持续 迭代 
while step * batch_size < training_iters: 


EEA 
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12 batch. xs, batch. ys = mnist.train.next batch(batch size) 

13 # 对 数据 进行 处 理 ， 使 其 符合 输入 

14 batch xs = batch_xs.reshape((batch_size, n steps, n input)) 
15 sess.run(optimizer, feed_dict={x: batch xs, y: batch. ys, }) 


16 3 在 特定 的 迭代 回合 进行 数据 的 输出 

17 if step % display_step == 0: 

18 acc = sess.run(accuracy, feed_dict={x: batch. xs, y: batch. ys, }) 
19 print('step 96d, training accuracy 96g' 96 (step, acc)) 

20 step *- 1 


行 上 述 代 码 ， 可 以 看 到 在 训练 过 程 中 准确 率 的 提升 情况 ， 如 图 6.26 所 示 。 


step 400, training accuracy 0.976562 
step 420, training accuracy 0.945312 
step 440, training accuracy 0.960938 
step 460, training accuracy 0.914062 
step 480, training accuracy 0.976562 
step 500, training accuracy 0.953125 
step 520, training accuracy 0.976562 
step 540, training accuracy 0.960938 
step 560, training accuracy 0.992188 
step 580, training accuracy 0.960938 
step 600, training accuracy 0.9375 

step 620, training accuracy 0.96875 

step 640, training accuracy 0.96875 

step 660, training accuracy 0.96875 

step 680, training accuracy 0.953125 
step 700, training accuracy 0.96875 

step 720, training accuracy 0.976562 
step 740, training accuracy 0.976562 
step 760, training accuracy 0.96875 

step 780, training accuracy 0.992188 


图 6.26 ”准确 率 的 提升 情况 
可 以 看 到 ， 准 确 率 是 稳步 提升 的 ， 可 此 可 见 ， 循 环 神经 网 络 也 是 个 不 错 的 识别 算法 。 
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在 前 面 章 节 中， 我 们 已 经 详细 介绍 了 最 常用 的 全 连接 神经 网 络 、 卷 积 神经 网 络 和 循环 
神经 网 络 。 本 节 中 将 简要 介绍 递归 神经 网 络 。 


6.9.1 递归 神经 网 络 简介 


递归 神经 网 络 (Recursive Neural Network，RNN) 与 循环 神经 网 络 类 似 ， 主 要 用 于 自然 
语言 的 处 理 ， 而 且 可 以 处 理 诸如 树 和 图 这 样 的 递归 结构 。 
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i 


| ee 


rer 


递归 神经 网 络 的 输入 是 两 个 或 多 个 子 节点 ， 输 出 就 是 将 这 些 子 节点 编码 后 产生 的 父 节 
点 ， 父 节点 的 维度 和 每 个 子 节点 是 相同 的 ， 如 图 6.27 所 示 。 


E 
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cl C2 
图 6.27 ”递归 神经 网 络 模型 
其 中 ，CL 和 C2 分 别 表示 两 个 子 节点 的 向 量 ，P 表 示 父 节点 的 向 量 。 子 节点 和 父 节 点 组 
成 一 个 全 连接 神经 网 络 。 
在 数学 上 可 以 描述 为 ， 假 设 子 节点 和 父 节点 的 维度 是 4， 全 连接 神经 网 络 的 权重 矩阵 
为 天 ， 则 到 的 维度 将 是 4x24d， 父 节点 的 计算 公式 可 以 写成 : 


P=tanh(W| C [eb 
-tanh(p | 


2 


然后 ， 我 们 把 产生 的 父 节点 的 向 量 和 其 他 子 节点 的 向 量 再 次 作为 网 络 的 输入 ， 产 生 它 
们 的 父 节 点 。 如 此 递归 下 去 ， 直 至 整 棵 树 处 理 完毕 。 最 终 ， 我 们 将 得 到 根 节点 的 向 量 ， 可 
以 认为 是 对 整 棵 树 的 表示 ， 这 样 就 实现 了 把 树 映 射 为 向 量 。 


QA 递归 神经 网 络 的 应 用 


递归 神经 网 络 可 以 把 树 结构 、 图 结构 的 信息 编码 为 一 个 向 量 ， 也 就 是 把 信息 映射 到 一 
个 语义 向 量 空间 中 。 在 语义 向 量 空间 中 ， 一 般 满足 某 一 类 性 质 。 

例如 ， 在 语义 向 量 空间 中 ， 语 义 相似 的 向 量 距离 更 近 。 也 就 是 说 ， 如 果 两 名 话 的 意思 
相似 ， 那 么 把 它们 分 别 编码 后 的 两 个 向 量 的 距离 也 相近 ; 反之 ， 如 果 两 句 话 的 意思 截然 不 
同 ， 那 么 编码 后 两 个 向 量 的 距离 则 很 远 。 

利用 这 样 的 性 质 ， 我 们 可 以 对 自然 语言 中 的 歧义 句 进行 有 效 的 区 别 。 例 如 ，“ 我 们 三 
个 人 一 组 ”这 一 句 话 ， 通 过 递归 神经 网 络 可 以 表示 为 图 6.28 所 示 的 情形 。 
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图 6.28 ”递归 神经 网 络 可 区 别 歧 义 句 

很 明显 ， 图 6.28 中 将 “我 们 三 个 人 一 组 ”分 为 两 种 语法 解析 树 : 一 种 是 “我 们 /三 个 人 
一 组 ”， 也 就 是 说 ， 我 们 的 人 很 多 ， 按 照 每 三 个 人 一 组 的 方式 进行 分 组 ; 另 一 种 是 “我 们 
三 个 人 /一 组 ， 也 就 是 说 ， 我 们 只 有 三 个 人 ， 并 且 组 成 一 组 。 采 用 递归 神经 网 络 可 以 将 这 
两 种 解析 方式 编码 为 不 同 的 向 量 ， 从 而 区 别 出 不 同 的 语义 。 

递归 神经 网 络 可 以 将 词 、 句 、 段 、 篇 按照 它们 的 语义 映射 到 同一 个 语义 向 量 空间 中 ， 
也 就 是 把 树 结构 、 图 结构 的 信息 表示 为 一 个 个 有 意义 的 向 量 。 有 了 这 些 向 量 后 ， 就 可 以 此 
为 基础 去 完成 更 高 级 的 任务 ， 比 如 情感 分 析 等 。 

尽管 递归 神经 网 络 具 有 更 为 强大 的 表示 能 力 ， 但 是 在 实际 应 用 中 并 不 太 流行 。 其 中 一 
个 主要 原因 是 ， 递 归 神 经 网 络 的 输入 是 树 结构 、 图 结构 ， 而 这 种 结构 需要 花费 很 多 人 力 去 
标注 。 相 对 于 递归 神经 网 络 能 够 带 来 的 性 能 提升 ， 这 种 投入 是 不 太 划算 的 。 
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本 章 主要 介绍 了 神经 网 络 ， 讲 解 了 神经 元 模型 、 神 经 网 络 层 ， 并 详细 讲解 了 全 连 
接 神经 网 络 、 卷 积 神经 网 络 、 循 环 神经 网 络 等 主要 的 神经 网 络 的 原理 、 计 算 过 程 以 及 
TensorFlow 提 供 的 方法 等 ， 主 要 内 容 包 括 通用 神经 网 络 层 的 构建 、 卷 积 层 的 使 用 、 池 化 层 
的 使 用 、 循 环 神经 元 的 构建 以 及 损失 函数 的 选择 等 。 本 章 针 对 手写 数字 数据 集 MNIST 分 别 
使 用 了 softmax 回 归 、 卷 积 神经 网 络 (CNN)、 长 短期 记忆 (LSTM) 神 经 网 络 进行 了 构建 和 训 
练 ， 具 体 说 明了 使 用 TensorFlow 构 建 神经 网 络 的 步骤 和 重点 。 


在 前 面 章节 中 ， 简 要 介绍 了 线性 模 
型 、SVM 以 及 几 种 常用 的 神经 网 络 模型 。 
这 些 模型 主要 针对 有 标签 的 数据 进行 训 
练 ， 属 于 监督 学 习 。 本 章 将 对 无 监督 学 习 
进行 讲解 。 
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在 前 面 介 绍 的 机 器 学 习 方 法 中 ， 训 练 数据 都 是 有 标签 的 。 但 在 现实 世界 中 ， 想 要 提 
供 具有 标签 的 数据 并 不 容易 ， 对 于 大 量 的 训练 数据 ， 我 们 没有 精力 去 进行 标识 甚至 是 无 法 
标识 的 。 我 们 希望 能 够 实现 一 种 犹如 人 脑 的 模型 ， 只 需 少量 的 标签 便 可 理解 这 个 多 彩 的 世 
界 。 对 于 这 种 仅 有 数据 本 身 而 没有 标签 的 训练 数据 的 学 习 ， 就 是 无 监督 学 习 。 

对 于 无 监督 学 习 而 言 ， 由 于 输入 数据 没有 标签 ， 因 此 在 学 习 训练 时 无 法 获取 正确 的 标 
签 信息 。 无 监督 学 习 在 模型 构建 、 正 确 率 等 方面 与 监督 学 习 都 是 不 一 样 的 。 
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目前 ， 在 无 监督 学 习 中 研究 最 多 、 应 用 最 广 的 就 是 聚 类 模型 。 

聚 类 的 思想 就 是 对 于 这 些 未 明确 指定 分 类 的 数据 ， 通 过 它们 本 身 呈 现 出 的 结构 ， 使 用 
若干 通常 不 相交 的 子 集 对 样本 数据 进行 划分 ， 每 个 子 集 称 为 “能 ”。 通 过 这 样 的 划分 ， 每 
个 马 可 能 对 应 着 一 些 潜在 的 类 别 。 这 些 通过 聚 类 模型 划分 的 类 别 ， 在 训练 前 是 未 知 的 ， 只 
是 在 训练 过 程 中 自动 形成 了 簇 结构 。 对 于 这 种 自然 划分 形成 的 徐 ， 在 实际 使 用 前 还 需要 使 
用 者 再 次 进行 评估 。 

基于 不 同 的 学 习 策 略 ， 人 们 设计 出 了 多 种 类 型 的 聚 类 算法 ， 主 要 包括 原型 聚 类 、 密 度 
聚 类 和 层次 聚 类 等 。 
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O “原型 聚 类 ”假设 数据 的 聚 类 结构 能 通过 一 组 原型 进行 刻画 。 之 后 能 对 原型 进行 不 
断 的 迭代 更 新 ， 进 而 获取 到 数据 的 聚集 、 分 类 。 这 种 算法 在 实际 的 聚 类 任务 中 极 
为 常用 ， 主 要 的 原型 聚 类 算法 包括 K 均 值 聚 类 、 学 习 向 量 量 化 (LVQ) 以 及 高 斯 混合 
RK. 

C) 密度 聚 类 假设 数据 的 聚 类 结构 能 通过 样本 分 布 的 紧密 程度 来 确定 。 之 后 能 从 样 
本 密集 程度 的 角度 考虑 样本 之 间 的 连续 性 ， 并 基于 可 连续 样本 不 断 扩展 聚 类 簇 以 
获得 最 终 的 聚 类 结果 。 最 著名 的 密度 聚 类 算法 就 是 DBSCAN 算 法 。 

O “层次 聚 类 ， 假 设 数据 的 聚 类 结构 能 通过 数据 的 分 层 来 确定 。 通 过 在 不 同 层次 对 数 
据 集 进行 划分 ， 从 而 形成 树 型 的 聚 类 结构 。 对 于 数据 样本 的 层次 划分 ， 可 以 采用 
“ 自 底 向 上 ”的 聚合 策略 ， 也 可 以 采用 “ 自 顶 向 下 ”的 分 拆 策略 。 其 中 ， 最 著名 
的 层次 聚 类 算法 就 是 AGNES 算 法 。 


[7.1.2 自 编码 网 络 模型 


在 无 监督 学 习 中 ， 还 有 一 种 重要 的 训练 方法 是 自 编码 网 络 。 

自 编码 网 络 是 一 种 神经 网 络 ， 利 用 的 是 信息 论 中 对 信息 进行 “编码 -解码 ”的 原理 。 
通过 对 信息 进行 “编码 -解码 ”， 可 以 对 原始 信息 进行 恢复 重建 ， 而 且 编码 后 的 信息 虽然 
在 形式 上 与 原始 信息 不 同 ， 但 却 有 效 地 保留 了 原始 信息 的 内 容 。 

在 自 编码 网 络 模型 中 ， 一 般 都 通过 构建 多 层 神经 网 络 来 实现 。 将 原始 信息 作为 神经 网 
络 模型 的 输入 ， 通 过 神经 网 络 中 间 层 的 处 理 对 原始 信息 进行 “编码 -解码 ”， 形 成 神经 网 
络 的 输出 。 对 神经 网 络 的 输出 与 原始 信息 之 间 的 误差 进行 比较 ， 以 误差 最 小 化 作为 损失 函 
数 进行 整体 网 络 的 迭代 和 调整 。 

在 此 基础 上 ， 还 可 以 进一步 改造 。 比 如 ， 对 输入 添加 噪声 后 进行 训练 ， 可 以 使 编码 信 
息 具有 一 定 的 抗 噪 能 力 等 。 

接 下 来 ， 将 使 用 最 常用 的 K 均 值 聚 类 和 自 编码 网 络 来 讲解 无 监督 学 习 。 
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K 均 值 聚 类 算法 是 聚 类 算法 中 的 一 种 常用 算法 。 本 节 将 详细 介绍 K 均 值 聚 类 算法 并 使 
该 算法 对 数据 进行 分 类 。 


LEX]. “均值 采 类 算法 简介 


K 均 值 聚 类 算法 是 一 种 常用 的 聚 类 算法 ， 过 程 如 下 : 对 于 给 定 的 样本 集 D， 划 分 为 K 
的 簇 类 ， 使 所 有 的 簇 划 分 C 满 足 最 小 化 平方 误差 。 换 言 之 ， 计 算 每 个 样本 点 与 其 所 属 质心 
的 距离 的 误差 平方 和 最 小 化 平方 误差 ， 计 算 公式 为 : 


rr 


K 
E= > YIX- ull! 
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我 们 需要 实现 的 就 是 最 小 化 平方 误差 E。 但 这 是 NP-hard 问 题 ， 难 以 直接 计算 出 最 正 
确 的 结果 。 在 实际 工程 计算 中 ， 可 以 通过 迭 代 优 化 的 方法 来 逼近 最 优 解 。 

迭代 优化 的 思路 是 任意 选 定 K 个 质心 ， 然 后 将 所 有 样本 数据 根据 选 定 的 K 个 质心 划分 
KKR, 之 后 根据 划分 的 每 个 簇 内 的 样本 数据 调整 质心 的 位 置 。 最 后 再 次 将 所 有 样本 根 
据 新 质心 进行 簇 划分 ， 不 断 迭 代 。 主 要 计算 过 程 可 以 分 为 如 下 几 步 : 

对 于 给 定 的 数据 样本 D， 任 意 选 择 其 中 的 K 个 点 作为 初始 质心 。 

O 将 每 个 点 分 配 到 距离 最 近 的 质心 ， 形 成 kK 个 簇 。 

@ 对 于 完成 分 配 的 K 个 马 ， 再 次 重新 计算 每 个 秘 的 质心 。 

@ 重复 步骤 @， 再 次 将 每 个 点 分 配给 新 的 最 近 那 个 簇 的 质心 。 

O 不 断 迭 代步 又 @ 和 @@， 直 到 秘 不 发 生变 化 或 达到 最 大 迭代 次 数 为 止 。 

在 计算 过 程 中 ， 需 要 特别 关注 的 是 K 值 的 选取 、 初 始 质心 、 距 离 算 法 和 质心 的 更 新 等 
关键 点 。 

对 于 K 的 取 值 ， 表 示 需 要 得 到 的 簇 的 数目 ， 也 就 是 样本 数据 的 标签 数 。 如 果 能 够 明确 
最 终 的 标签 数 ， 就 可 以 直接 使 用 K 值 。 但 在 进行 无 监督 学 习 时 ， 我 们 通常 事先 无 法 明确 数 
据 的 分 布 情况 ， 也 就 无 法 明确 知道 数据 的 簇 的 数目 。 在 K 值 的 选取 过 程 中 ， 一 般 通 过 枚 举 
来 不 断 优化 和 调整 ， 不 会 将 K 值 设置 得 很 大 。 

对 于 初始 质心 的 选取 ， 由 于 具有 随机 性 ， 因 此 一 般 进行 随机 选取 。 但 在 进行 随机 选取 
时 ， 需 要 注意 样本 数据 集 在 每 一 个 维度 上 的 最 小 值 与 最 大 值 ， 随 机 的 质心 尽量 不 要 超过 样 
本 数据 的 边界 。 

对 于 每 个 点 到 质心 的 距离 ， 计 算 方 法 有 很 多 种 ， 常 用 的 有 欧 氏 距离 、 余 弦 相 似 度 、 汉 
明 距离 等 。 在 K 均 值 聚 类 算法 中 ， 一 般 采 用 欧 氏 距离 算法 来 计算 两 个 点 的 距离 ， 欧 氏 距离 


公式 如 下 : 
distEclud(X, Y) = (Xi - Y? 
n 


对 于 质心 的 更 新 计算 ， 会 将 簇 中 所 有 样本 的 均值 作为 该 簇 的 质心 ， 这 也 是 K 均 值 名 称 
的 由 来 。 
需要 特别 说 明 的 是 ， 由 于 整个 过 程 采用 办 代 优化 的 计算 思想 来 近似 求解 ， 因 此 并 不 能 
保证 收敛 到 的 都 是 全 局 的 最 优 解 ， 有 很 大 可 能 最 终 获 取 的 结果 是 局 部 的 最 优 解 。 所 以 在 实 
际 工 作 中 ， 为 了 取得 比较 好 的 效果 ， 我 们 一 般 会 用 不 同 的 初始 质心 来 进行 计算 ， 从 而 得 到 
多 个 局 部 的 最 优 解 ， 再 通过 对 比 各 个 结果 来 分 析 确 定 最 优 解 。 
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我 们 使 用 K 均 值 聚 类 算法 来 对 MNIST 训 练 集中 的 图 片 进行 类 型 标注 ， 最 后 与 训练 集中 
的 正确 标签 进行 对 比 。 

1. 加 载 数据 

对 于 MNIST 数 据 集 的 使 用 ， 我 们 已 经 非常 熟悉 了 。 但 在 无 监督 学 习 中 ， 进 行 训练 的 样 
本 仅仅 是 MNIST 数 据 集中 的 图 片 数据 ， 而 并 没有 使 用 MINST 数 据 集中 的 标识 数据 。 加 载 
数据 的 具体 实现 如 下 : 


01 import tensorflow as tf 

02 import numpy as np 

03 import input. data 

04 from random import randint 

05 from collections import Counter 

06 4 导入 MNIST 数 据 集 

07 mnist = input data.read data sets('data/, one_hot=True) 
O8 # 使 用 训练 集 的 图 片 数据 作为 输入 数据 

09 X=mnist.train.images # shape:(55000, 784) 

10 N= mnist.train.num examples # 样本 点 数目 


2. 实现 K 均 值 聚 类 算法 
我 们 知道 K 均 值 聚 类 算法 采用 循环 友 代 的 方式 ， 重 点 关注 的 是 明确 K 值 、 初 始 质心 、 
计算 距离 和 更 新 质心 。 


在 对 MNIST 数 据 集 的 处 理 过 程 中 ，K 值 是 我 们 最 终 对 样本 数据 的 分 类 数量 。 因 此 ， 
MNIST 数 据 集 最 终 被 分 类 为 0~9 共 10 类 ， 因 此 K 值 取 10。 

对 于 初始 质心 的 选取 ， 是 在 样本 数据 的 边界 通过 随机 选取 的 方式 来 实现 的 ， 例 如 : 

start pos = tf. Variable(X[np.random.randint(X.shape[0], size-k),:], dtype-tf.float32) 

centroids = tf. Variable(start pos.initialized value(), 'S', dtype-tf.float32) 

对 于 每 个 点 的 分 配 ， 首 先 计 算 该 点 到 所 有 质心 的 距离 ， 然 后 使 用 tf.argmin() 方 法 获取 
距离 最 小 的 质心 作为 该 点 所 在 区 域 的 质心 ， 划 分 到 该 簇 。 

完成 复 的 划分 后 ， 对 于 该 复 内 所 有 的 样本 数据 使 用 tfunsorted_segment_sum() 方 法 求 
和 、 求 平均 值 ， 获 得 簇 的 新 质心 。 

然后 不 断 迭 代 ， 直 到 质心 不 再 变化 或 者 训练 次 数 完 成 ， 具 体 实现 如 下 : 

01 k = 10 4 类别 数目 

02 MAX_ITERS = 100 # RAZR 

03 # 获 取 初 始 质心 

04 start pos = tf. Variable(X[np.random.randint(X.shape[0], size=k),:], dtype=tf.float32) 

05 centroids = tf. Variable(start pos.initialized value(), 'S', dtype-tf.float32) 

06 # 输 入 值 

07 points = tf. Variable(X, 'X', dtype=tf.float32) 

08 ones like = tf.ones((points.get shape([0], 1)) 

09 prev assignments = tf. Variable(tf.zeros((points.get shape([0], ), dtype-tf.int64)) 

10 # 获取 距离 


11 p1 = tf.matmul( 

12  tfexpand dims(tf.reduce sum(tf.square(points), 1), 1), 

13  tfones(shape-(1, k)) 

14 ) 

15 p2 - tf.transpose(tf.matmul( 

16  tf.reshape(tf.reduce sum(tf.square(centroids), 1), shape=[-1, 1]), 

17 ones like, 

18  transpose b-True 

19 )) 

20 # 计 算 距 离 

21 distance = tf.sqrt(tf.add(p1, p2) - 2 * tf.matmul(points, centroids, transpose_b=True)) 
22 # 划 分 该 点 的 簇 

23 point_to_centroid_assignment = tf.argmin(distance, axis=1) 

24 s 计算 均值 

25 total = tf.unsorted segment. sum(points, point_to_centroid_assignment, K) 

26 count = tf.unsorted segment sum(ones like, point to centroid assignment, kK) 
27 means - total / count 

28 # 中 心 点 是 否 变化 

29 is continue = tf.reduce any(tf.not equal(point to centroid assignment, prev assignments)) 
30 # 人 循环 迭代 

31 with tf.control_dependencies([is_continue]): 

32 loop = tf.group(centroids.assign(means), prev assignments.assign 

(point to centroid assignment)) 


3. 进行 数据 训练 
接 下 来 进行 正式 的 数据 训练 ， 具 体 实 现 如 下 : 


01 sess = tf.Session() 

02 sess.run(tf.global variables initializer()) 

03 changed = True 

04 iterNum =0 

05 while changed and iterNum < MAX ITERS: 
06  iterNum *- 1 

07 ”才气 训练 

08  [changed, _] = sess.run([is_continue, loop]) 
09  res-sess.run(point to centroid assignment) 
10  print(iterNum) 

11 print("train finished") 


4. 评估 模型 

对 于 模型 的 评估 ， 我 们 先 查看 一 下 经 过 K 均 值 训练 后 ，MNIST 数 据 集中 图 片 被 划分 的 
情况 。 

在 使 用 K 均 值 训练 后 ， 样 本 数据 被 划分 到 10 个 簇 中 。 由 于 是 MNIST 数 据 集 ， 因 此 对 于 
一 个 簇 中 的 样本 数据 ， 我 们 可 以 获取 对 应 的 正确 标签 。 我 们 对 每 一 个 簇 中 样本 数据 的 正确 
标签 进行 统计 ， 显 示 数 量 排 在 前 三 的 标签 及 对 应 数量 。 最 后 ， 通 过 查看 簇 中 前 三 的 正确 标 
签 及 数量 ， 判 断 簇 划分 的 正确 性 。 具 体 实现 如 下 : 


01 ## 尼 录 训 练 集 的 真实 标签 数据 ， 为 了 测试 准备 率 
02 y -mnist.train.labels 
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03 y=0 

04 form in range(N): 

05  forninrange(10): 

06 if(y. [m][n]-71): 

07 y.append(n) 

08 j£ 评估。 获取 每 个 篮 所 有 的 点 ， 按 照 真 实 标签 的 前 三 数量 显示 
09 nums_in_clusters  [[] for i in range(10)] 

10 fori in range(N): 

11  nums in clusters[res[i].append(y[i]) 

12 foriin range(10): 

13  print(Counter(nums in clusters[i]).most common(3) ) 


运行 上 述 代 码 ， 可 以 看 到 在 训练 结束 后 ， 每 个 簇 中 各 类 标签 的 数量 如 图 7.1 所 示 。 


train finished 

[(4, 2885), (9, 2670), (7, 1612)] 
[(7, 3466), (9, 2243), (4, 1758)] 
[(3, 3646), (5, 1649), (8, 1026)] 
[(2, 3877), (3, 197), (6, 72)] 
[(1, 2675), (5, 749), (8, 385)] 
[(8, 2588), (6, 90), (5, 57)] 
[(8, 3203), (5, 1400), (3, 910)] 
[(6, 4486), (2, 189), (0, 169)] 
[(e, 2272), (5, 233), (6, 126)] 
[(1, 3460), (3, 381), (2, 311)] 


图 7.1 K 均 值 训 练 结果 


可 以 看 出 ， 用 K 均 值 划分 的 簇 类 与 真实 的 标签 值 之 间 存在 一 定 的 区 别 。 

例如 ， 第 01 行 按照 K 均 值 划分 的 得 中 ， 真 实 标签 为 “4” 的 样本 有 2885 个 ， 标 签 为 
“9” 的 样本 有 2670 个 。 这 个 簇 划 分 得 并 不 好 ， 很 难说 明 簇 代表 的 含义 。 

但 是 ， 对 于 第 06 行 的 簇 而 言 ， 真 实 标签 为 “0” 的 样本 有 2588 个 ， 标 签 为 “6” 的 样本 
有 90 个 。 这 个 簇 内 的 数据 就 比较 统一 ， 误 差 也 在 可 接受 范围 内 。 


为 了 进一步 判断 簇 划 分 的 准确 率 ， 使 用 测试 集 进行 测试 。 对 于 每 一 个 划分 的 艇 ， 使 用 


该 艇 中 所 有 样本 数据 的 最 高 真实 标签 作为 该 禾 的 标签 。 然 后 使 用 测试 集 计算 准 确 率 。 具 体 


实现 如 下 : 


01 # 计 算 每 个 簇 中 的 样本 个 数 ， 将 最 高 频 的 标签 作为 该 簇 的 标签 (使 用 idx) 


02 counts = np.zeros(shape-(3, k)) 

03 for i in range(len(idx)): 

04  counts[idx[i]] += mnist.train.labels[i] 

05 # 将 最 高 频 的 标签 分 配给 质心 

06 labels map = [np.argmax(c) for c in counts] 

07 labels map = tf.convert to tensor(labels map) 
08 # 评估 模型 


09 cluster label = tf.nn.embedding lookup(labels map, cluster idx) 


10 4 计算 准确 率 


11 correct prediction = tf.equal(cluster label, tf.cast(tf.argmax(Y, 1), tf.int32)) 
12 accuracy op = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


13 # 测试 模型 
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14 test x, test y = mnist.test.images, mnist.test.labels 
15 print(" 测 试 准确 率 : " sess.run(accuracy. op, feed dict-(X: test x, Y: test y])) 


运行 上 述 代 码 ， 可 以 看 到 最 后 训练 的 结果 输出 如 下 : 

测试 准确 率 : 0.7127 

可 以 看 出 ， 结 果 同 有 监督 学 习 中 对 MNIST 数 据 集 建 模 后 的 准确 率 相 比 有 一 定 的 差距 ， 
所 以 ， 无 监督 学 习 的 准确 率 还 需要 不 断 改进 。 


WA 自 编码 网 络 E 


自 编码 网 络 是 另 一 种 无 监督 学 习 方 法 ， 通 过 对 信息 进行 “编码 -解码 ”来 完成 信息 的 
恢复 重建 ， 从 而 形成 模型 。 接 下 来 详细 介绍 自 编码 网 络 使 用 的 算法 ， 并 使 用 自 编码 网 络 实 
现 对 MNIST 数 据 集 的 识别 。 


[7.3.1 自 编码 网 络 笛 介 


自 编码 网 络 是 指 将 自 编码 的 思想 应 用 到 神经 网 络 算法 。 

1. 自 编码 器 

自 编码 器 就 是 一 种 试图 还 原 原 始 输入 的 系统 ， 由 编码 器 (Encoder) 和 解码 器 (Decoder) 两 
部 分 组 成 ， 如 图 7.2 所 示 。 


编码 器 将 输入 信号 x 变换 成 编码 信号 y， 再 由 解码 器 将 编码 信号 y 转 换 成 输出 信号 x'， 

在 数学 上 表示 为 : 
y= f(x) 
x 29g0)-29(002) 

自 编码 器 的 目的 是 让 输出 信号 x' 尽 可 能 复 现 输入 信号 x。 但 是 如 果 ftx) 和 g(x) 是 恒 等 映 
射 ， 则 自 编 码 器 毫 无 意义 。 所 以 ， 我 们 经 常 对 中 间 信 号 y 做 一 定 的 约束 ， 使 系统 能 够 学 习 
得 到 的 编码 变换 fx) 和 g(x)， 这 两 者 既 不 是 恒 等 映射 ， 又 尽 可 能 使 输出 值 等 于 输入 值 。 
需要 注意 的 是 ， 对 于 自 编码 器 ， 我 们 往往 并 不 关心 输出 ， 而 真正 关心 的 是 中 间 层 的 编 
码 ， 因 为 我 们 使 用 自 编码 器 使 编码 信号 y 以 一 种 不 同 的 形式 承载 了 原始 数据 x 的 所 有 信息 ， 
也 就 是 对 x 的 一 种 自学 习 方式 的 特征 进行 提取 。 
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2. 自 编码 神经 网 络 
自 编码 神经 网 络 就 是 使 用 神经 网 络 模型 将 输入 样本 编码 到 隐 层 ， 然 后 从 隐 层 解码 到 输 
出 层 进行 样本 重建 的 过 程 ， 如 图 7.3 所 示 。 


x y=x 


图 7.3 自 编 码 神经 网 络 模型 

其 中 ， 将 输入 层 数 据 x 转换 到 隐 层 4， 再 转换 到 输出 层 y。 整 个 过 程 可 以 表示 为 : 

h= f(x) 2 sigmoid((X -W) +b) 
x' = g(h) = sigmoid ((h -W") +b') 

其 中 ， 从 输入 层 到 隐 层 是 一 个 编码 的 过 程 ， 通 过 去 掉 输入 数据 本 身 存在 的 不 同 程度 的 
元 余 信 息 ， 把 有 用 的 特征 输入 隐 层 。 可 以 说 ， 隐 层 是 在 尽量 不 损失 信息 量 的 情况 下 ， 对 原 
始 数 据 的 另 一 种 表达 。 所 以 ， 我 们 应 对 隐 层 予以 特别 关注 。 

为 了 尽量 学 到 有 意义 的 表达 ， 一 般 给 隐 层 引入 一 定 的 约束 条 件 ， 常 见 的 约束 条 件 是 数 
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对 于 数据 维度 ， 一 般 要 求 隐 层 维度 小 于 输入 数据 维度 。 也 就 是 说 ， 自 编码 神经 网 络 试 
图 以 更 小 的 维度 描述 原始 数据 而 尽量 不 损失 数据 信息 。 

对 于 稀疏 性 ， 一 般 要 求 隐 层 维度 大 于 输入 数据 维度 ， 但 同时 会 约束 隐 层 的 神经 元 活跃 
程度 ， 希 望 大 部 分 神经 元 是 抑制 的 。 对 于 有 稀疏 性 限制 的 自 编码 器 ， 称 为 稀疏 自 编码 器 ， 
它们 能 够 有 效 地 找到 大 量 维度 中 真正 重要 的 若干 维 。 

对 于 自 编码 神经 网 络 的 损失 函数 ， 根 据 数 据 的 不 同形 式 ， 一 般 选择 二 次 误差 或 交叉 炳 
误差 。 


自 编 码 网 络 实践 


下 面 使 用 自 编码 网 络 来 对 MNIST 数 据 集中 的 图 片 进行 类 型 标注 ， 最 后 使 用 测试 数据 进 
行 评估 。 
1. 加 载 数据 
对 于 MNIST 数 据 集 的 使 用 ， 我 们 已 经 非常 熟 秋 了 。 但 在 无 监督 学 习 中 ， 进 行 训练 的 样 
本 仅仅 是 MNIST 数 据 集中 的 图 片 数据 ， 而 并 没有 使 用 MINST 数 据 集中 的 标识 数据 。 
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自 编码 网 络 的 构建 可 分 为 四 层 ， 分 别 是 输入 层 、 隐 层 1、 隐 层 2 和 输出 层 。 
输入 层 从 MNIST 数 据 集中 获取 输入 图 片 ， 维 度 为 28X28=784， 定 义 如 下 ;: 
x -tf.placeholder(tf.float32, [None, 784]) 


通过 隐 层 1 和 隐 层 2 对 输入 数据 进行 编码 和 解码 。 在 本 例 中 ， 使 用 数据 维度 限制 ， 使 两 
个 隐 层 的 神经 元 数量 都 低 于 输入 数据 维度 ， 分 别 设置 为 256 和 128。 

对 于 损失 函数 ， 选 择 二 次 误差 法 。 计 算 原始 输入 值 与 经 过 编码 -解码 后 的 输出 值 之 间 
的 平方 差 ， 作 为 损失 值 。 整 个 过 程 的 具体 实现 如 下 : 


01 # 网 络 模型 ， 两 个 隐 层 

02 n_hidden1=256 

03 n hidden2-128 

04 n input-784 

05 # 初 始 化 权重 

06 weights={ 

07 'encoder. h1'tf.Variable(tf.random normal([n input,n hidden1]) ), 
08 'encoder. h2"tf. Variable(tf.random normal([n hidden1,n hidden2])), 
09 'decoder. h1'tf.Variable(tf.random normal([n hidden2,n hidden1])), 
10 'decoder. h2"tf. Variable(tf.random normal([n hidden1,n input]) ), 

11 } 

12 # 初 始 化 偏 置 项 

13 biases={ 

14 'encoder_b1':tf.Variable(tf.random_normal([n_hidden1]) ), 

15 'encoder b2*"tf.Variable(tf.random normal([n hidden2]) ), 

16 'decoder. b1'tf. Variable(tf.random normal([n hidden1]) ), 

pu^ 'decoder. b2'tf. Variable(tf.random normal([n input]) ), 


20 def encoder(x): 
21  layer1-tf.nn.sigmoid(tf.add(tf.matmul(x,weights['encoder. h1']),biases['encoder. b1'])) 
22 |layer2-tf.nn.sigmoid(tf.add(tf.matmul(layer1,weights[l'encoder h2'])biases['encoder. b2])) 
23 return layer2 
24 # 解 码 函数 

25 def decoder(x): 
26  layeri-tf.nn.sigmoid(tf.add(tf.matmul(x,weights['decoder h17])biases['decoder b1'])) 
27  layer2-tf.nn.sigmoid(tf.add(tf.matmul(layer1,weights['decoder h2'],biases['decoder. b2'])) 
28 return layer2 
29 # 构 建 模型 

30 encoder_op=encoder(x_) 

31 decoder_op=decoder(encoder_op) 

32 # 预 测 值 

33 y_pred=decoder_op 

34 AXA 

35 y true=x_ 

36 # 损 失 函 数 

37 leraning_rate=0.01 # 学 习 率 

38 cost-tf.reduce mean(tf.pow(y true-y pred,2)) 

39 optimizer-tf.train. RMSPropOptimizer(leraning rate).minimize(cost) 
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3. 进行 数据 训练 


接 下 来 进行 正式 的 数据 训练 ， 具 体 实 现 如 下 : 


01 者 | 练 

02 training_epochs=20 

03 init = tf.global variables initializer() # 全 局 参数 初始 化 器 

04 sess - tf.Session() 

05 sess.run(init) 

06 total batch-int(mnist.train.num examples/batch size) 

07 for epoch in range(training epochs): 

08  foriinrange(total batch): 

09 batch. xs, batch. ys = mnist.train.next batch(batch size) 
10 .,C7sess.run([optimizer,cost]feed dict-[x : batch xs) 
11  ifepoch 96 display step--0: 

12 print(epoch,"cost-",c) 

13 print("train Finished") 


运行 训练 数据 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 ， 如 图 7.4 所 示 。 


Extracting data/train-images-idx3-ubyte.gz 
Extracting data/train-labels-idx1-ubyte.gz 
Extracting data/tl0k-images-idx3-ubyte.gz 
Extracting data/tl0k-labels-idx1-ubyte.gz 
cost- 0.220184 

cost- 06.180042 

cost- 0.165702 

cost- 0.154612 

cost- 0.151305 

cost- 0.148232 

cost- 0.14068 

cost- 0.136677 

cost- 0.132273 

cost- 0.125573 

cost- 0.121865 

cost- 0.118312 

cost- 0.114496 

cost- 0.110058 

cost- 0.108262 

cost- 0.104868 

cost- 0.104496 

cost- 0.10384 

cost- 0.101889 

19 cost- 06.101921 

train Finished 


图 7.4 损失 值 的 变化 情况 
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4. 评估 模型 
对 于 模型 的 评估 ， 我 们 从 MNIST 数 据 集中 选择 10 张 图 片 ， 分 别 绘制 原始 图 片 和 经 过 训 
练 后 的 自 编码 网 络 的 输出 图 片 ， 并 进行 对 比 。 具 体 实现 如 下 : 


01 # 从 MNIST 数 据 集中 选择 图 片 进行 测试 
02 encoder_decode=sess.run(y_pred,feed_dict={x_: mnist.test.images[:examples to show]]) 
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03 sess.close() 

04 # 比 较 结 果 

05 f,a=plt.subplots(2,10,figsize=(10,2)) 

06 foriin range(examples_to_show): 

07 。 # 绘 制 数据 集 本 身 

08  a[O][i.imshow(np.reshape(mnist.test.images[i],(28,28))) 

09  a[1Ji.imshow(np.reshape(encoder decode[i],(28,28))) 

10 f.show() 

11 plt.draw() 

12 plt.waitforbuttonpress() 

完成 评估 后 ， 查 看 绘制 的 原始 输入 图 片 和 经 过 训练 后 的 自 编码 网 络 的 输出 图 片 ， 对 比 
情况 如 图 7.5 所 示 。 


0 
20 P 

0 25 0 25 25 0 25 0 25 0 25 0 25 0 25 0 25 0 25 
图 7.5 ”对比 原 始 图 片 和 输出 图 片 


上 一 排 是 原始 输入 图 片 ， 下 一 排 是 经 过 训练 后 的 自 编码 网 络 的 输出 图 片 。 可 以 很 明显 
地 看 出 ， 经 过 训练 后 的 图 片 能 够 识别 出 对 应 的 数字 ， 但 是 存在 一 定 的 噪点 。 
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本 章 主 要 介绍 了 无 监督 学 习 的 概念 和 经 典 算 法 ， 并 详细 讲解 了 K 均 值 聚 类 算法 ， 以 及 
目前 火热 的 自 编码 网 络 学 习 方法 。 
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第 8 和 章 


自然 语言 文本 处 理 


在 前 面 章节 中 ， 我 们 针对 机 器 学 习 的 
主要 算法 进行 了 介绍 。 接 下 来 ， 我 们 将 针 
对 自然 语言 处 理 、 语 音 处 理 、 图 像 处 理 、 
人 脸 识别 和 游戏 等 不 同 领域 讲解 机 器 学 习 
的 实际 应 用 。 


自然 语言 文本 处 理 简介 


EX 


自然 语言 处 理 是 人 工 智能 领域 中 的 一 个 重要 研究 方向 ， 主 要 研究 人 与 计算 机 之 间 用 人 
类 语言 进行 有 效 沟通 的 理论 和 方法 。 自 然 语 言 文本 处 理 通过 输入 一 段 文本 ， 让 计算 机 识别 
这 段 文 本 表达 的 含义 ， 包 括 文本 本 身 的 含义 甚至 表达 的 情感 。 


8.1.1] 处 理 模型 的 选择 


在 自然 语言 文本 处 理 中 ， 对 输入 的 一 段 文本 进行 学 习 训练 后 ， 会 生成 一 种 对 应 的 输出 。 

对 于 输入 而 言 ， 是 一 段 自然 语言 文本 ， 与 上 下 文 之 间 有 着 密切 的 关系 。 要 理解 这 段 文 
本 ， 一 般 都 会 用 到 循环 神经 网 络 (RNN) 模 型 。 

对 于 输出 而 言 ， 根 据 实际 应 用 场景 ， 主 要 有 以 下 几 种 情况 。 

一 是 应 用 在 稿件 编写 、 对 图 像 进行 描述 等 场景 中 。 这 类 场景 都 针对 一 个 主题 ， 经 过 
学 习 ， 输 出 一 段 有 实际 表达 含义 的 语言 文本 。 采 用 的 神经 网 络 模型 一 般 包 括 CNN 和 RNN 
模型 。 

二 是 应 用 在 电影 评论 、 图 书评 论 等 情感 分 析 场景 中 。 这 类 场景 需要 针对 输入 的 评价 意 
见 区 别 出 积 极 或 消极 的 情感 。 采 用 的 模型 包括 基础 LSTM 模 型 等 。 


三 是 应 用 在 机 器 翻译 中 ， 例 如 输入 一 段 英文 ， 然 后 翻译 为 中 文 语 句 的 场景 ， 采 用 的 
般 是 Seq2Seq 模 型 。 


EXE] es 


在 前 面 针对 机 器 学 习 算 法 的 讲解 中 ， 我 们 都 是 直接 对 数字 进行 处 理 。 但 是 ， 自 然 语 
言 文本 并 不 是 数字 ， 如 果 将 这 些 机 器 学 习 算法 应 用 到 自然 语言 文本 的 处 理 中 ， 就 必须 将 
文本 转换 成 数字 。 对 于 从 文本 到 数字 的 转换 ， 实 现 方法 经 过 了 不 断 演化 ， 主 要 方法 包括 
如 下 类 型 。 


1. 词 袋 模型 


词 袋 模型 将 文本 或 文档 看 作 一 袋子 单词 ， 不 考虑 语法 和 词 序 关系 ， 每 个 词 都 是 独立 
的 ， 然 后 对 这 袋子 单词 进行 编码 。 例 如 ， 我 们 需要 处 理 的 语句 是 : 


TensorFlow is a good tool for making machine learning easier. 


我 们 需要 将 语句 中 出 现 的 所 有 单词 都 转换 为 对 应 的 数字 。 
首先 构造 所 有 单词 的 词典 : 
{ 


" TensorFlow ": 1, 
"Bum 

"aide 

"good ": 4, 

"tool ": 5, 

"for": 6, 

" making ": 7, 

" machine ": 8, 

" learning ": 9, 
"easier ": 10 


} 

然后 使 用 该 词典 ， 对 语句 进行 编码 。 一 般 采 用 的 词 向 量 的 编码 方式 为 独 热 编 码 (one 
hot representation)。 换 言 之 ， 如 果 词 典 中 的 单词 在 语句 中 出 现 了 ， 则 词典 中 该 位 置 索引 被 
标识 为 1。 按 照 这 种 编码 方式 ， 语 句 


TensorFlow is a good tool for making machine learning easier. 


对 应 的 标识 为 : 


同样 ， 我 们 对 一 个 新 的 语句 : 

Machine learning is a good tool for making data mining easier. 
依照 词典 进行 编码 ， 则 表示 为 : 

[Li Pi s e n c P e D 
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使 用 词 袋 模型 可 以 依据 词典 对 语句 进行 编码 ， 但 是 需要 特别 注意 以 下 几 点 。 

第 一 ， 词 袋 模型 没有 考虑 词语 在 文本 中 的 上 下 文 之 间 的 相关 信息 ， 损 失 了 语句 中 单词 
的 顺序 特征 。 常 常会 出 现 两 个 含义 完全 不 同 的 语句 ， 如 果 使 用 的 单词 完全 一 样 ， 则 对 应 的 
编码 也 是 相同 的 ， 例 如 : 


TensorFlow is a good tool for making machine learning easier. 
Machine learning is a good tool for making TensorFlow easier. 


这 两 个 语句 的 转换 结果 都 是 : 

[| 

第 二 ， 对 于 每 一 个 语句 ， 无 论语 句 的 长 短 如何 ， 都 会 使 用 相同 词典 长 度 的 编码 。 为 了 
保证 词语 的 覆盖 范围 ， 一 般 情 况 下 会 选择 非常 大 的 词汇 量 作为 词典 。 因 此 ， 语 句 的 表示 向 
量 会 非常 稀疏 。 

第 三 ， 每 一 个 单词 都 具有 相同 的 数值 化 索引 ， 无 法 体现 单词 在 语句 中 的 重要 性 。 例 
如 ， 所 处 理 语 句 中 的 单词 TensorFlow 和 is 具有 相同 的 数值 化 索引 值 1， 但 是 对 于 理解 语句 ， 
单词 TensorFlow 明 显 比 单词 is 更 重要 ， 词 袋 模型 无 法 体现 这 种 强 弱 关系 。 

2.TF-IDF 算 法 

为 了 解决 词 袋 模型 中 每 一 个 单词 都 具有 相同 的 索引 ， 无 法 体现 不 同 单词 重要 程度 的 
问题 ， 创 建 了 TF-IDF(Term Frequency-Inverse Document Frequency， 词 频 - 逆 向 文件 频率 ) 

该 算法 原本 是 用 于 资讯 检索 的 一 种 常用 加 权 技 术 ， 使 用 统计 学 方法 来 评估 一 个 单词 对 
于 文件 集 或 一 份 文件 对 于 语料库 的 重要 程度 。 它 从 两 方面 来 判断 单词 的 权重 值 ， 分 别 是 词 
频 和 文件 频率 。 

首先 ， 我 们 考虑 词 频 。 词 频 是 某 个 单词 在 文档 中 出 现 的 频率 ， 根 据 词 频 可 确定 每 个 单 
词 的 权重 Wy: 


_ 单词 W 出 现 的 次 数 
该 文档 中 所 有 单词 的 数目 

我 们 认为 某 个 单词 在 文档 中 出 现 的 次 数 越 多 ， 它 就 越 重要 。 

但 是 ， 对 于 一 些 通用 的 单词 ， 如 the、a 等 ， 虽 然 在 文档 中 出 现 的 频率 都 非常 高 ， 但 是 
对 于 主题 并 没有 太 大 的 作用 ， 所 以 单纯 使 用 词 频 是 不 够 的 。 

对 于 通用 单词 ， 它 们 在 每 一 篇 文档 中 出 现 的 频率 都 非常 高 ， 而 与 文档 主题 有 关 的 
单词 ， 仅 仅 会 在 一 篇 文档 中 出 现 的 频率 较 高 。 根 据 这 一 特征 ， 于 是 就 有 了 逆向 文件 频率 
(Inverse Document Frequency, IDF). 

IDF 的 主要 思想 就 是 : 在 整个 语料库 中 ， 包 含 词 条 的 文档 越 多 ， 就 说 明 词 条 ! 极 有 可 
能 是 通用 单词 ， 其 与 文档 主题 的 关联 性 较 小 ，IDF 较 小 ， 反之， 包含 词 条 的 文档 越 少 ， 就 
说 明 词 条 t 极 有 可 能 与 文档 的 主题 相关 ，IDF 越 大 。 对 于 某 一 特定 词 条 的 IDF， 可 以 用 总 文 
件数 目 除 以 包含 该 词 条 之 文件 的 数目 ， 再 对 得 到 的 商 取 对 数 来 进行 计算 ， 公 式 为 : 


Wy 


语料库 中 文档 总 数 1 
DF = loger I rco E Wap 
结合 词 频 和 文件 频率 两 方面 的 权重 设计 ， 就 可 以 找到 一 种 适合 的 计算 方法 ， 使 得 一 个 
词 条 与 主题 的 关联 越 强 ， 权 重 越 大 ， 关 联 越 弱 ， 权 重 越 小 。 所 以 对 于 每 个 单词 ， 它 在 每 个 
文档 中 的 TF-IDF 值 可 以 表示 为 : 


1 
三 oeg 

其 中 ，Wiy 是 文档 中 词 条 的 词 频 ，War 是 包含 该 词 条 的 所 有 文档 的 总 频率 。 

清楚 了 一 个 词 条 的 TF-IDF 后 ， 在 实际 计算 时 就 能 够 找到 重要 的 词语 ， 过 滤 掉 不 那么 重 
要 的 词语 ， 从 而 可 以 在 保证 有 效 性 的 情况 下 降低 运算 量 。 

3. 词语 的 分 布 式 表 示 

在 词 袋 模 型 中 ， 采 用 了 one-hot representation 编 码 方式 。 这 种 编码 方式 仅仅 对 词语 进行 
了 符号 化 ， 并 没有 很 好 地 利用 自然 语言 中 单词 的 顺序 和 语义 信息 。 

Harris 在 1954 年 提出 的 分 布 假说 认为 : 上 下 文 相似 的 单词 ， 语 义 也 相似 。 在 1957 年 ， 
Firth 进 一 步 阐 述 和 明确 了 分 布 假说 ， 他 认为 : 单词 的 语义 由 上 下 文 决定 。 

基于 分 布 假说 ， 对 自然 语言 的 表示 可 以 分 为 两 大 步骤 : 首先 ， 选 择 一 种 方式 来 描述 上 
下 文 ; 其 次 选择 一 种 模型 来 描述 目标 词 与 上 下 文 之 间 的 关系 。 在 实践 中 ， 主 要 可 以 分 为 三 
类 : 基于 矩阵 的 分 布 表示 、 基 于 聚 类 的 分 布 表 示 和 基于 神经 网 络 的 分 布 表示 。 

基于 神经 网 络 的 分 布 表 示 又 称 为 词 向 量 或 词 嵌入 (word embedding)。 由 于 神经 网 络 词 
向 量 表示 技术 通过 神经 网 络 技术 对 上 下 文 ， 以 及 上 下 文 与 目标 词 之 间 的 关系 进行 建 模 ， 
此 在 表示 复杂 的 上 下 文 时 ， 具 有 明显 的 优势 。 

除了 解决 单词 顺序 问题 ， 还 需要 解决 one-hot representation 编 码 方式 具有 维度 过 大 的 
缺点 ， 因 此 在 词 向 量 表示 中 还 进行 了 两 点 改进 : 一 是 将 词 向 量 中 的 每 个 元 素 由 整 型 改 为 
浮 点 型 ， 变 为 整个 实数 范围 ;二 是 将 原来 稀疏 的 巨大 维度 压缩 并 嵌入 到 一 个 更 小 维度 的 
空间 。 

4. word2vec 方 法 

在 2013 年 ， 谷 歌 的 工程 师 创 建 了 一 种 词 向 量 方法 来 实现 基于 神经 网 络 的 词 分 布 表示 ， 
该 方法 被 命名 为 word2vec。 在 word2vec 方 法 中 ， 提 出 并 实现 了 CBOW(Continuous Bag Of 
Word， 连 续 词 袋 模型 ) 和 skip-gram 语 言 模型 。 

CBOW 通 过 上 下 文 来 预测 目标 词 的 模型 ， 而 skip-gram 语 言 模 型 从 一 个 单词 来 预测 上 下 
文 的 模型 。 这 两 个 模型 的 对 比如 图 8.1 所 示 。 


INPUT PROJECTION OUTPUT IUTPUT PROJECTION OUTPUT 
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w(t*2) f * w(t*2) 
CBOW 模 型 skip-gram 模 型 


58.1 CBOW 模 型 和 skip-gram 模 型 


CBOW 模 型 是 一 个 典型 的 神经 网 络 ， 需 要 关注 的 是 输入 层 、 隐 层 、 输 出 层 以 及 损失 
函数 。 

输入 层 是 目标 词 的 上 下 文 的 独 热 编 码 方式 ， 也 就 是 C 个 1X 7 的 矩阵 。 

隐 层 将 这 C 个 1X 7 的 矩阵 分 别 与 同一 个 FrX N 大 小 的 权重 矩阵 相 乘 ， 然 后 取 平 均值 。 

输出 层 将 隐 层 的 输入 值 与 一 个 NXV 大 小 的 权重 和 矩阵 相 乘 ， 得 到 1 X 7 的 输出 值 。 该 输 
出 值 中 的 每 个 元 素 代表 的 就 是 词 库 里 每 个 词 的 事后 概率 。 

损失 函数 就 是 输出 层 的 输出 值 与 目标 词 真实 的 独 热 编 码 形式 做 比较 后 的 计算 结果 。 

在 实际 的 实现 过 程 中 ， 由 于 7 通常 是 一 个 很 大 的 数 ， 因 此 计算 起 来 相当 费时 。 在 
word2vec 方 法 中 ， 用 基于 huffman 编 码 的 hierarchical softmax 筛 选 掉 了 一 部 分 不 可 能 的 词 ， 
然后 又 用 nagetive samping 去 掉 了 一 些 负 样本 的 词 ， 从 而 降低 了 复杂 度 。 

skip-gram 语 言 模型 的 训练 过 程 类 似 ， 只 不 过 输入 和 输出 刚好 相反 。 


[8.1.3| TensorFlow 文 本 处 理 的 一 般 步 又 


自然 语言 文本 的 处 理 一 般 分 为 文本 初始 化 、 模 型 构建 、 模 型 训练 和 评估 。 对 于 模型 的 
构建 、 训 练 和 评估 ， 可 以 分 为 如 下 步骤。 

(D 首先 需要 对 原始 数据 进行 初始 化 ， 主 要 包括 对 原始 数据 的 清洗 ， 涉 及 大 小 写字 
符 、 标 点 符号 、 数 字 、 空 白字 符 以 及 自然 语言 处 理 中 停 用 词 (stop word) 的 处 理 。 

@ 根据 处 理 后 的 数据 ， 通 过 生成 词汇 表 、 转 换 词 编码 的 方式 ， 在 文字 与 数值 之 间 建 
立 映 射 字典 ， 并 对 输入 数据 进行 编码 。 


55858 ”自然 语言 文本 处 理 


© 构建 处 理 模型 ， 一 般 是 在 循环 神经 网 络 模型 的 基础 上 进行 调整 。 
@@ 训练 和 评估 模型 。 


[IE ss 和 自 


唐诗 是 汉语 使 用 成 就 的 一 块 瑰宝 ， 在 本 节 中 我 们 将 使 用 唐诗 的 生成 过 程 来 讲解 对 自然 
语言 文本 的 处 理 。 

自然 语言 文本 的 处 理 采 用 神经 网 络 模型 ， 步 又 一 般 可 分 为 数据 预 处 理 、 生 成 训练 模型 
和 评估 模型 。 


| 8.2.1 sse 


对 于 自然 语言 文本 处 理 ， 关 键 的 一 步 就 是 训练 数据 的 处 理 ， 主 要 包括 原始 数据 的 清 
洗 、 生 成 词典 和 生成 词 编码 。 


1. 原始 数据 的 清洗 
这 里 ， 我 们 选择 的 训练 数据 就 是 全 唐诗 文本 。 在 文本 中 有 标题 和 内 容 ， 格 式 上 存在 空 
格 等 字符 。 我 们 对 训练 数据 进行 清洗 ， 具 体 实 现 如 下 : 


01 poetry. list = [] # 存放 唐诗 的 数组 
02 # 从 文件 中 读 取 唐诗 
03 with open(ORIGIN DATA, 'rb') as f: 


04 
05 


f lines = f.readlines() 
print (唐诗 总 数 : ).format(len(f. lines))) 


3 逐 行进 行 处 理 
for line in f. lines: 
strip line = line.strip().decode('utf8") # 去 除 前 后 空白 符 ， 转 码 
try: 
title, content = strip. line.split(':") # 将 唐诗 分 为 标题 和 内 容 
except: 
continue 
content = content.strip().replace( ', ") # 去 除 内 容 中 的 空格 
# 舍弃 含有 非法 字符 的 唐诗 
if (' in content or '( in content or '<' in content or'《'in content or ' ' in content or ' in content: 
continue 
lenth = len(content) 
if lenth < 20 or lenth > 100: # 舍弃 过 短 或 过 长 的 唐诗 
continue 
# 加 入 列表 
poetry. list.append('s' + content + 'e') 


22 print (用 于 训练 的 唐诗 数 : ()'.format(len(poetry. list) 


2. 生成 词典 
从 训练 数据 中 提取 出 所 有 的 单词 ， 并 统计 各 个 单词 出 现 的 次 数 。 为 了 避免 低频 词 的 干 


ser] 


同时 减少 模型 参数 ， 我 们 只 保留 部 分 高 频 词 来 生成 词典 ， 具 体 实现 如 下 : 


01 poetry_list=sorted(poetry_list,key=lambda x:len(x)) 
02 words list — [] 

03 # 获取 唐诗 中 的 所 有 字符 

04 for poetry in poetry list: 

05 words list.extend([word for word in poetry]) 

06 # 统计 出 现 的 次 数 

07 counter = collections.Counter(words list) 

08 # HEF 

09 sorted words = sorted(counter.items(), key=lambda x: x[1], reverse=True) 
10 # 获得 按 出 现 次 数 降序 排列 的 字符 列表 

11 words list = [<unknowz] + [x[0] for x in sorted words] 
12 words list = words list[:len(words list)] 

13 print (词典 大 小 : ('format(words list) 

14 # 保 存 词典 数据 

15 with open(VOCAB DATA, 'w) as f: 

16 for word in words list: 

17 f.write(word + ^n") 


3. 生成 词 编码 


文字 是 无 法 直接 输入 模型 中 的 ， 所 以 需要 根据 词典 对 训练 数据 进行 编码 ， 然 后 才能 使 
编码 过 程 的 具体 实现 如 下 : 


01 def word to id(word, id dict): 

02  ifwordin id dict: 

03 return id. dict[word] 

04 else: 

05 return id. dict'Kunknow?'] 

06 # 生成 单词 到 id 的 映射 

07 word id dict = dict(zip(words list, range(len(words list)))) 
08 # 将 poetry_list 转 换 成 向 量 形式 

09 id listz[] 

10 for poetry in poetry. list: 

11 id lis.append([str(word to id(word,word id dict)) for word in poetry]) 
12 # 将 向 量 写 入 文件 

13 with open(OUTPUT DATA, 'w) as f: 

14  forid linid list: 

15 fwrite( " join(id. I) + \n') 


EEE] cues 


对 于 训练 模型 ， 选 择 LSTM 模 型 为 基础 模型 进行 改造 ， 主 要 包括 一 个 输入 层 、 一 个 


LSTM 层 、 一 个 全 连接 神经 网 络 层 和 一 个 输出 层 。 


01 deftrain(self): 

02 tf.reset default graph() 

03 x. data = tf.placeholder(tf.int32, [BATCH SIZE, None]) # 输入 数据 
04 y. data - tf.placeholder(tf.int32, [BATCH SIZE, None]) # 标签 

05 emb keep = tf.placeholder(tf.float32) # embedding 层 dropout 保 留 率 


mn keep = tf.placeholder(tf.float32) # LSTM 层 dropout 保 留 率 
data = dataset.DatasetBATCH SIZE) # 创建 数据 集 
global step = tf. Variable(0, trainable=False) 
Istm cell = [ 
tf.nn.mn cell.DropoutWrapper(tf.nn.mn cell.BasicLSTMCell((HIDDEN SIZE), output keep - 
probem keep)for  inrange(NUM LAYERS] 
cell  tf.nn.mn. cell.MultiRNNCell(lstm cell) 
# ORRA EE 
embedding = tf.get_variable(‘embedding', shape=[VOCAB_SIZE, HIDDEN_SIZE]) 
# 创建 softmax 层 参数 
Softmax weights = tf.get variable('softmaweights', shape=[HIDDEN_SIZE, VOCAB SIZE]) 
Softmax bais = tf.get. variable('softmax bais', shape-[VOCAB SIZE]) 
# 进行 词 嵌 入 
emb = tf.nn.embedding lookup(embedding, x. data) 
3t dropout 
emb dropout = tf.nn.dropout(emb, emb keep) 
3 计算 循环 神经 网 络 的 输出 
init state = cell.zero_state(BATCH_SIZE, dtype=tffloat32) 
outputs, last state = tf.nn.dynamic_rnn(cell, emb_dropout, scope-'d rnn', 
dtype-tf.float32, initial state-init state) 
outputs = tf.reshape(outputs, [-1, HIDDEN. SIZE]) 
# 计算 logits 
logits = tf.matmul(outputs, softmax weights) + softmax_bais 
HRASERER, TEESSESU 
outputs target = tf.reshape(y. data, [-1]) 
COSS = tf.nn.sparse softmax cross entropy with logits(logits-logits,labels-outputs target, ) 
loss  tf.reduce mean(coss) 
# 学 习 率 
learn rate = tf.train.exponential decay(LEARN. RATE, global step, LR_DECAY_STEP, LR_ 
DECAY) 
# 计算 梯度 ， 并 防止 梯度 爆炸 
trainable variables = tf.trainable variables() 
grads, -tf.clip by global norm(tf.gradients(loss, trainable variables), MAX GRAD) 
# 创建 优化 器 
optimizer = tf.train.AdamOptimizer(learn rate) 
train op = optimizer.apply gradients(zip(grads, trainable variables), global step) 


接 下 来 进行 正式 的 数据 训练 。 在 训练 过 程 中 保存 训练 模型 ， 便 于 评估 时 使 用 。 具 体 实 


现 如 下 

01 # 开 始 训练 

02 saver - tf.train.Saver() 

03 with tf.Session() as sess: 

04 sess.run(tf.global variables initializer()) # 初始 化 

05 for step in range(TRAIN TIMES): 

06 # 获取 训练 batch 

07 X, y = data.next. batch() 

08 # 计算 损失 

09 Loss, _ = sess.run([loss, train op], feed_dict={x_data: x, 
y_data:y, emb_keep:EMB_KEEP, mn_keep:RNN_KEEP}) 

10 if step % SHOW STEP == 0: 
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11 print (step {}, loss is (J.format(step, Loss)) 

12 3 保存 模型 

13 if step % SAVE STEP -- 0: 

14 saver.save(sess, CKPT PATH, global step-global step) 


运行 上 述 代码 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 以 及 模型 对 测试 数据 集 准确 
率 的 提升 情况 ， 如 图 8.2 所 示 。 


Reloaded modules: rnn model, dataset, setting, 
utils 

step 0, loss is 8.744064331054688 
step 1, loss is 8.742897987365723 
step 2, loss is 8.741910934448242 
step 3, loss is 8.741204261779785 
step 4, loss is 8.73952865600586 
step 5, loss is 8.738457679748535 
step 6, loss is 8.736448287963867 
step 7, loss is 8.734400749206543 
step 8, loss is 8.730825424194336 
step 9, loss is 8.727068901062012 
step 10, loss is 8.721028327941895 
step 11, loss is 8.713068962097168 
step 12, loss is 8.701953887939453 
step 13, loss is 8.686874389648438 


图 8.2 ”生成 训练 模型 

同时 ， 会 在 指定 文件 夹 中 生成 训练 模型 的 相关 数据 ， 文 件 如 图 8.3 所 示 。 

名 称 
] checkpoint 
model_ckpt-1.data-00000-of-00001 
model ckpt-1.index 
|.] model ckpt-1.meta 
model ckpt-101.data-00000-of-00001 
model ckpt-101.index 
model ckpt-101.meta 
model ckpt-201.data-00000-of-00001 
model ckpt-201.index 
model ckpt-201.meta 


图 8.3 ”生成 训练 模型 的 相关 数据 
[8.2.3 seem 


对 于 模型 的 评估 ， 我 们 以 实现 唐诗 的 输出 为 目标 ， 分 别 实现 随机 生成 一 首 唐诗 和 生成 
一 首 藏 头 诗 。 

生成 唐诗 的 过 程 是 : 通过 已 用 文字 ， 不 断 预测 其 后 出 现 的 文字 。 有 具体 而 言 ， 就 是 当 有 
一 个 文字 A 后 ， 将 该 文字 转换 为 id 数 值 ， 对 id 数 值 使 用 训练 模型 进行 训练 ， 生 成 一 个 输出 id 


E 


数值 ， 最 后 将 该 输出 id 数值 转换 为 一 个 文字 B， 从 而 获得 输入 文字 A 的 后 续 文 字 B。 不 断 迭 
代 获 得 后 续 文 字 ， 最 终 组 成 一 句 诗 。 使 用 训练 模型 的 具体 实现 如 下 : 


01 
02 


21 
22 


x data = tf.placeholder(tf.int32, [1, None]) 

emb keep = tf.placeholder(tf.float32) 

rnn keep - tf.placeholder(tf.float32) 

saver = tf.train.Saver() 

# 单词 到 id 的 映射 

word2id dict = utils.read word to id dict() 

# id 到 单词 的 映射 

id2word dict = utils.read id to word dict() 

# 验证 用 模型 

embedding = tf.get variable'embedding', shape=[VOCAB_SIZE, HIDDEN SIZE]) 
softmax, weights = tf.get. variable('softmaweights', shape-[HIDDEN. SIZE, VOCAB SIZE]) 

Softmax bais = tf.get variable('softmax bais', shape-[VOCAB SIZE]) 

emb = tf.nn.embedding lookup(embedding, x. data) 

emb dropout - tf.nn.dropout(emb, emb keep) 

Istm cell = [tf.nn.rnn cell.DropoutWrappert(tf.nn.mn cell.BasicLSTMCell(HIDDEN SIZE), 

output keep probernn keep)for inrange(NUM LAYERS)] 

cell = tf.nn.mn  cell.MultiRNNCell(Istm cell) 

# 与 训练 模型 不 同 ， 这 里 只 生成 一 首 古 体 诗 ， 所 以 batch_size=1 

init state = cell.zero state(1, dtype=tf float32) 

outputs, last. state = tf.nn.dynamic mn(cell, emb dropout, scope-'d rnn', 

dtype-tf.float32, initial state-init state) 

outputs = tf.reshape(outputs, [-1, HIDDEN. SIZE]) 

logits = tf.ymatmul(outputs, softmax. weights) + softmax bais 

probs - tf.nn.softmax(logits) 


下 面 以 随机 生成 一 首 唐诗 为 例 ， 具 体 实现 如 下 : 


01 
02 
03 


04 
05 
06 
07 
08 
09 
10 


11 
12 


13 
14 
15 
16 
17 
18 


19 


with tf.Session() as sess: 

# 加 载 最 新 的 模型 

ckpt = tf.train.get checkpoint state('ckpt) 

saver.restore(sess, ckpt.model checkpoint path) 

if poemtype--'poem' # 随 机 生成 一 首 唐诗 
# 预 测 第 一 个 文字 
rnn_state = sess.run(cell.zero state(1, tf.float32)) 
x = np.array([[word2id dict['s']]], np.int32) 
ACRBERRS, LUST EBENE, BIRRA 
prob, rmn. state = sess.run([probs, last state], 

(x. data: x, init state: rmn. state, emb keep: 1.0, rmn. keep: 1.0]) 

idword = sorted(prob, reverse-True)(:100] 
index 7 np.searchsorted(np.cumsum(idword), 
np.random.rand(1) * np.sum(idword)) 
word = id2word dict[int(index)] 


poem=" 
while word != 'e': 3 循环 操作 ， 直 到 预测 出 结束 符号 'e' 
poem += word 


x = np.array([word2id dict[word]]]) 

prob, rnn state = sess.run([probs, last state], 

[x data: x, init state: rnn. state, emb keep: 1.0, rnn. keep: 1.0)) 
idword = sorted(prob, reverse- True)[:100] 
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20 index = np.searchsorted(np.cumsum(idword), 
np.random.rand(1) * np.sum(idword)) 

21 word = id2word dict[int(index)] 

22 3t 打印 生成 的 唐诗 

23 print (poem) 

运行 上 述 代码 ， 随 机 生成 一 首 唐诗 ; 

留 和 吹 破 信和 森 罗 ， 

BRE PEHE, 


座 上 霜 浓 天 下 久 ， 
满 身 应 是 去 经 年 。 


生成 一 首 藏 头 诗 的 过 程 与 随机 生成 唐诗 的 过 程 类 似 ， 只 是 每 一 句 开头 的 文字 需要 以 要 


求 的 藏 头 文字 开始 ， 具 体 实现 如 下 : 


01 if poemtype--' head' : # 生 成 藏 头 诗 ， 进 行 预测 

02 mn. state = sess.run(cell.zero state(1, tf.float32)) 

03 poem =" 

04 cntz 1 

05 3 逐 句 生成 诗歌 

06 for x in poemstr: 

07 word 7 x 

08 while word !=', ' and word !- ', ': 

09 poem += word 

10 x = np.array([[word2id dict(word]]]) 

11 prob, rnn. state = sess.run([probs, last state], 
[x data: x, init state: rmn. state, emb keep: 1.0, rmn. keep: 1.0)) 

12 idword = sorted(prob, reverse-True)[:100] 

13 index = np.searchsorted(np.cumsum(idword), 
np.random.rand(1) * np.sum(idword)) 

14 word = id2word dict[int(index)] 

15 iflen(poem) > 25: 

16 print (bad.) 

17 break 

18 3 根据 单 双 句 添加 标点 符号 

19 if cnt & 1: 

20 poem +=', ' 

21 else: 

22 poem +=', ' 

23 cnt+=1 

24 # 打印 生成 的 藏 头 诗 

25 print (poem) 

我 们 以 “生日 快乐 ”为 藏 头 ， 运 行 上 述 代码 ， 生 成 一 首 藏 头 诗 ， 如 下 所 示 ; 

生 金 有 气 寻 还 远 ， 

Hi&z E ERRRBE. 

快 风 一 瞬 收 残 雨 ， 

乐天 知 命 了 无 忧 。 


通过 本 节 的 练习 ， 我 们 掌握 了 最 基础 的 自然 语言 处 理 方式 。 


Vy meea r O 


自然 语言 文本 处 理 除了 能 够 智能 编写 诗词 、 歌 曲 甚至 稿件 外 ， 还 包括 从 人 类 的 自然 语 
言 文本 中 获取 人 们 的 情感 。 

本 节 通 过 创建 CBOW 单 词 网 套 ， 并 使 用 它们 对 影评 数据 进行 情感 分 析 来 区 别 大 家 对 电 
影 的 态度 。 


8.3.1] CBOW 锯 套 模 型 


CBOW 欧 套 模型 是 word2vec 方 法 的 一 种 实现 模型 ， 能 够 比较 好 地 体现 词 序 关 系 。 它 是 
一 种 通过 上 下 文 来 预测 目标 词 的 模型 ， 在 本 节 中 ， 将 通过 康 奈 尔 大 学 提供 的 影评 数据 集 
(http://www.cs.cornell.edu/people/pabo/movie-review-data/) 来 实现 该 模型 。 

影评 数据 集 由 电影 评论 组 成 ， 其 中 包括 肯定 和 否定 态度 的 评论 各 1000 篇 、 标 注 了 蛮 贬 
属性 的 句子 各 5331 句 、 标 注 了 主客 观 标 签 的 句子 各 5000 句 。 正 因为 如 此 ， 该 影评 数据 库 是 
情感 分 析 研 究 中 使 用 最 广泛 的 数据 集 ， 能 够 应 用 到 分 析 篇 章 、 句 子 、 词 语 等 各 种 细 粒 度 的 
情感 分 析 场景 中 。 

使 用 影评 数据 集 实现 CBOW 嵌 套 模型 的 过 程 需要 包括 加 载 数据 、 归 一 化 文本 、 构 建 词 
典 、 创 建 词 向 量 训练 模型 以 及 训练 词 向 量 模型 几 个 步骤 。 

1. 加 载 数据 

影评 数据 集 是 可 以 下 载 的 ， 其 中 ，rt-polarity.pos 中 包括 正面 评价 5331 句 ，rt-polarity. 
neg 中 包括 负面 评价 5331 句 。 对 数据 的 加 载 主要 包括 下 载 数据 集 并 对 正面 评价 、 负 面 评价 
信息 进行 加 载 ， 具 体 实现 如 下 : 


01 defload movie data(): 


02 save folder name - 'temp' # 存 放 地 址 
03 pos_fie= os.path.join(save folder name, 'rt-polaritydata', rt-polarity.pos') # 正 面 评价 
04 neg file = os.path.join(save folder name, 'rt-polaritydata', rt-polarity.neg) # 负 面 评价 


05 ”# 本 地 是 否 存在 影评 数据 集 ， 不 存在 则 下 载 
06  ifnotos.path.exists(os.path.join(save folder name, 'rt-polaritydata")): 


07 movie data url = 'http://www.cs.cornell.edu/people/pabo/movie- 
review-data/rt-polaritydata.tar.gz* 

08 req = requests.get(movie data url, stream- True) 

09 with open(temp movie review temp.tar.gz', 'wb') as f: 

10 for chunk in req.iter content(chunk size-1024): 

11 if chunk: 

12 f.write(chunk) 

13 fflush() 


14 tar = tarfile.open(temp_movie_review_temp.tar.gz', "r.gz") ”# 解 压 数据 集 
15 tar.extractall(path-'temp") 

16 tar.close() 

17 pos data -[] # 获 取 正 面 评价 

18 with open(pos file, '', encoding-'latin- 1") as f: 


19 
20 
21 
22 


for line in f: 
pos. data.append(line.encode('ascii',errors-'ignore").decode()) 
f.close() 
pos data = [x.rstrip() for x in pos data] 
neg data = [] # 获 取 负 面 评价 
with open(neg file, r', encoding-'latin- 1") as f: 
for line in f: 
neg. data.append(line.encode('ascii',errors-'ignore").decode()) 
f.close() 
neg. data = [x.rstrip() for x in neg. data] 
texts = pos. data + neg. data 
target = [1]*len(pos data) + [O]*len(neg. data) 
return(texts, target) 


2. 归 一 化 文本 


对 于 
而 且 还 可 能 存在 自然 语言 处 理 中 的 停 用 词 情 况 。 


况 


F 输 入 的 文本 字符 串 信息 ， 可 能 存在 大 小 写字 符 、 标 点 符号 、 数 字 、 空 白字 符 等 情 


停 用 词 主要 包括 the、is、at、which 和 on 等 没有 实际 含义 的 单词 ， 中 文 则 包括 使 用 频率 
特 高 的 单 汉 字 等 。 在 自然 语言 处 理 中 ， 这 些 词 本 身 不 具备 实际 含义 ， 在 处 理 过程 中 如 果 遇 
到 它们 ， 则 立即 停止 处 理 ， 将 其 扔 掉 。 这 样 就 可 以 减少 计算 量 ， 提 高 效率 ， 并 且 通 常 都 会 
增强 最 终 的 效果 。 对 于 停 用 词 的 处 理 ， 使 用 NLTK 第 三 方 工 具 包 来 实现 。 在 代码 中 加 入 : 


import nitk 


nitk. 


download() 


运行 上 述 代码 ， 将 会 出 现 NLTK 的 下 载 管理 器 ， 下 载 对 应 的 停 用 词 包 ， 用 于 后 续 训 
练 ， 如 图 8.4 所 示 。 


(mm memo 


| Ele View Sort Help 


Identifier 


|| sentiwordnet SentiWordNet 45 MB 
shakespeare Shakespeare XML Corpus Sample 464.3 KB 
sinica treebank Sinica Treebank Corpus Sample 8782 KB 
smultron SMULTRON Corpus Sample 1623 KB 
snowball data. Snowball Data 65 MB 
spanish grammars | Grammars for Spanish 40KB 
|| state union C-Span State of the Union Address Corpus 789.8 KB 
| stopwords Stopwords Corpus | 171 KB 
| subjectivity Subjectivity Dataset v1.0 509.4 KB 
swadesh Swadesh Wordlists 223 KB 
| switchboard Switchboard Corpus Sample 772.6 KB 
| tagsets Help on Tagsets | 33:7 KB 
timit TIMIT Corpus Sample 212 MB 
|| L| toolbox Toolbox Sample Files 2447 KB 
| treebank Penn Treebank Sample 17MB 
|| twitter. samples Twitter Samples 153 MB 


Status 
not installed 
not installed 
not installed 
not installed 
not installed 
not installed 
not installed 
installed 
motinsalled — || 
not installed 

not installed 

not installed 

not installed 

not installed 

not installed 

not installed ~ 


Server Index [https : //raw.githubusercontent.com/nltk/nltk data/gh- 


Download Directory|C: NUsers Administrator VAppDataVRoamingVWnltk data | 


图 8.4 使 用 NLTK 第 三 方 工具 包 下 载 数据 


在 归 一 化 文本 处 理 中 ， 具 体 实现 如 下 : 
01 from nltk.corpus import stopwords 


02 stops - stopwords.words('english") # 停 用 词 选 取 

03 def normalize text(texts, stops): # 归 一 化 处 理 方法 

04 texts - [x.lower() for x in texts] # 大 小 写 处 理 

05 texts = ["join(cforcin x if c not in string.punctuation) for x in texts] # 移 除 标点 
06 texts = ["join(c for c in x if c not in '0123456789') for x in texts] # 移 除数 字 
07 texts =['"join([word for word in x.split() if word not in (stops)]) for x in texts]# 移 除 停 用 词 
08 texts = [''join(x.split()) for x in texts] # 移 除 空白 字符 

09  return(texts) 

3. 构建 词典 


构建 词典 包括 创建 词汇 表 和 将 输入 语句 转换 为 单词 索引 列表 。 
对 于 词汇 表 的 创建 ， 针 对 每 个 单词 创建 对 应 的 索引 值 。 为 了 提升 效率 ， 将 词 频 不 高 的 
单词 都 标记 为 RARE， 作 为 未 知 单词 。 具 体 实现 如 下 : 


01 def build_dictionary(sentences, vocabulary_size): 


02 
03 
04 
05 
06 
07 
08 


Split sentences - [s.split() for s in sentences] 
words = [x for sublist in split sentences for x in sublist] 
count = ['RARE', -人 
count.extend(collections.Counter(words).most common(vocabulary. size-1)) 
word dict = {} 
for word, word count in count: 
word. dict[word] = len(word dict) 


09 return(word dict) 
将 语句 转 为 单词 索引 值 的 过 程 就 是 查询 词汇 表 的 过 程 ， 具 体 实现 如 下 : 


01 def text_to_numbers(sentences, word dict): 


02 


data - [] 
for sentence in sentences: 
sentence data = [] 
for word in sentence.split(): 
if word in word. dict: 
word ix = word dict[word] 
else: 
word ix-0 
sentence data.append(word ix) 
data.append(sentence data) 
retum(data) 


构建 词典 就 是 创建 词汇 表 和 完成 语句 转换 ， 具 体 实现 如 下 : 


01 word dictionary = text_helpers.build_dictionary(texts, vocabulary size) 
02 word dictionary rev = dict(zip(word dictionary.values(), word dictionary.keys())) 
03 text data = text helpers.text to numbers(texts, word dictionary) 


4. 创建 词 向 量 训练 模型 
CBOW 嵌 套 模型 将 上 下 文 窗口 内 的 单词 嵌 套 放 在 一 起 ， 预 测 目标 单词 的 柑 套 。 词 向 量 
训练 模型 使 用 最 简单 的 神经 网 络 模型 ， 输 入 值 采 用 独 热 编码 方式 ， 经 过 一 个 隐 层 ， 然 后 进 


行 输出 
敛 问题 ， 因 此 改 用 NCE 损 失 函 数 。 具 体 实 现 如 下 : 


。 对 于 损失 函数 的 选取 ， 由 于 结果 的 稀疏 性 太 强 ， 导 致 常用 的 softmax 函 数 存在 收 


01 x inputs = tf.placeholder(tf.int32, shape=[batch_size, 2*window _size]) 
02 y target = tf.placeholder(tf.int32, shape-[batch size, 1]) 
03 valid dataset = tf.constant(valid examples, dtype-tf.int32) 
04 embeddings = tf. Variable(tf.random uniform([vocabulary size, embedding. size], -1.0, 1.0)) 
05 nce weights = tf. Variable(tf.truncated normal([vocabulary. size, embedding size], 
Stddev-1.0 / np.sqrt(embedding size))) 
06 nce biases = tf. Variable(tf.zeros([vocabulary size])) 
07 embed = tf.zeros([batch size, embedding size]) 
08 for element in range(2*window. size): 
09 embed += tf.nn.embedding lookup(embeddings, x. inputs[:, element]) 
10 loss = tf.reduce mean(tf.nn.nce loss(weights-nce weights, 
biases-nce biases, 
labelszy target, 
inputszembed, 
num sampled-num sampled, 
num classes-vocabulary size)) 
11 optimizer = tf.train.GradientDescentOptimizer(learning rate = model learning. rate).minimize(loss) 
12 norm = tf.sqrt(tf.reduce sum(tf.square(embeddings), 1, keep. dims-True)) 
13 normalized embeddings = embeddings / norm 
14 valid embeddings = tf.nn.embedding lookup(normalized embeddings, valid dataset) 
15 similarity = tf.matmul(valid embeddings, normalized embeddings, transpose b-True) 
16 saver = tf.train.Saver(('embeddings": embeddings]) 
5. 训练 词 向 量 模型 
使 用 数据 集 进行 训练 ， 并 且 保 存 CBOW 顽 套 模型 的 单词 字典 以 及 嵌 套 变量 。 有 具体 实现 
如 下 : 
01 loss vec [] 
02 loss x vec [] 
03 for i in range(generations): 
04 batch inputs, batch labels = text helpers.generate batch data(text data, batch size, 
window. size,method-'cbow) 
05 feed dict- [x inputs: batch inputs, y target: batch labels) 
06  sess.run(optimizer, feed dict-feed dict) 
07  if(i*1)96 print loss every == 0: 村 J 印 损失 值 
08 loss. val = sess.run(loss, feed_dict=feed_dict) 
09 loss vec.append(loss val) 
10 loss x vec.append(i* 1) 
11 print(Loss at step () : (J.format(i*1, loss val)) 
12  if(i*1)96 print valid every == 0: 3HTEDIGSBIS] 
13 sim = sess.run(similarity, feed dict-feed dict) 
14 for j in range(len(valid words)): 
15 valid word = word dictionary. rev[valid examples[j]] 
16 top k-5 # number of nearest neighbors 


17 nearest = (-sim[j, :]).argsort()[1:top k*-1] 

18 log. str = "Nearest to ();"format(valid word) 

19 for k in range(top. k): 

20 close word = word dictionary rev[nearest[k]] 

21 log. str = '() 0},' .format(log str, close word) 

22 print(log str) 

23  if(i* 1) % save embeddings every == 0: SÜRTZCBOWEREHISR! 

24 with open(os.path.join(data folder name, 'movie vocab.pkl", 'wb') as f: 

25 pickle.dump(word dictionary, f) 

26 model checkpoint path = os.path.join(os.getcwd(), data folder name, 
'cbow. movie embeddings.ckpt") 

27 Save path = saver.save(sess, model checkpoint path) 

28 print(Model saved in file: (J.format(save path)) 


运行 上 述 代码 ， 对 CBOW 顽 套 模型 进行 训练 的 损失 值 、 目 标 词 的 相 邻 词 以 及 保存 
CBOW 嵌 套 模 型 的 相关 信息 如 图 8.5 所 示 。 


Loss at step 49100 : 2.1291556358337402 
Loss at step 49200 : 2.372246503829956 


Loss at step 49300 : 2.1351306438446045 
Loss at step 49400 : 2.2577250003814697 
Loss at step 49500 : 2.267059087753296 
Loss at step 49600 : 2.053145408630371 
Loss at step 49700 : 2.056553602218628 
Loss at step 49800 : 2.5869126319885254 
Loss at step 49900 : 2.242506742477417 
Loss at step 50000 : 2.3883185386657715 


Nearest to love: scifi, deftly, told, today, overwrought, 
Nearest to hate: admire, ability, recommend, supporting, onto, 
Nearest to happy: guns, damned, thing, step, derivative, 
Nearest to sad: accomplished, equal, heart, endearing, huge, 
Nearest to man: tears, liked, open, nice, tiresome, 

Nearest to woman: flashy, assured, believe, damage, comedies, 
Model saved in file: D:\works\Tensorflow\@8\Embeddings\temp 
Xcbow movie embeddings.ckpt 


图 8.5 ”CBOW 词 向 量 训练 过 程 


我 们 已 经 通过 以 上 几 个 步骤 实现 了 对 影评 数据 集 的 CBOW 嵌 套 模 型 的 构建 ， 接 下 来 
将 构建 影评 分 类 模型 。 


[8-3.2 Ra 
对 于 影评 分 类 模型 的 构建 ， 使 用 8.3.1 节 训练 的 CBOW 钳 套 模 型 来 进行 单词 的 映射 。 在 


算法 模型 的 选择 上 ， 由 于 只 需要 判断 影评 结论 是 正面 评价 还 是 负面 
的 逻辑 回归 神经 网 络 模型 。 


评价 ， 因 此 选择 最 简单 


1. 加 载 数据 


对 于 影评 数据 集中 的 正面 评价 数据 和 负面 评价 数据 ， 随 机 地 区 别 为 训练 数据 集 和 测试 
数据 集 ， 以 此 进行 训练 和 验证 。 


01 
02 


10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 


Stops = stopwords.words('english' ) # 停 用 词 

data folder name = 'temp' 

texts, target = text helpers.load movie data() # 获 取 影 评 数据 

texts = text helpers.normalize text(texts, stops) # 归 一 化 文本 

target = [target[ix] for ix, x in enumerate(texts) if len(x.split()) > 2] 

texts = [x for x in texts if len(x.split()) > 2] 

# 获 取 训 练 、 测 试用 的 文本 和 标识 

train indices = np.random.choice(len(target), round(0.8*len(target)), replace=False) 

test indices = np.array(list(set(range(len(target))) - set(train_indices))) 

texts train = [x for ix, x in enumerate(texts) if ix in train. indices] 

texts test = [x for ix, x in enumerate(texts) if ix in test. indices] 

target train = np.array([x for ix, x in enumerate(target) if ix in train. indices]) 

target. test = np.array([x for ix, x in enumerate(target) if ix in test. indices]) 

# 文 本 根据 CBOW 字 典 转换 为 编码 

word. dictionary = pickle.load(open('temp/movie vocab.pkl', rb)) 

text data train = np.array(text helpers.text to numbers(texts train, word dictionary)) 

text data test = np.array(text. helpers.text to numbers(texts test, word dictionary)) 

# 标 准 化 输入 ， 输 入 长 度 统一 为 nax_words 

text data train = np.array([x[0:max_words] for x in [y*(O]*max words for y in text data train]]) 
text data test = np.array([x[0:max. words] for x in [y*[0]*max words for y in text. data test]]) 


2. 构建 模型 


神经 网 络 模型 采用 最 简单 的 模型 ， 只 包括 一 个 输入 层 、 一 个 隐 层 和 一 个 输出 层 。 损 失 
函数 选择 逻辑 回归 中 最 常用 的 sigmoid 方 式 。 


01 
02 


10 
11 


embeddings = tf. Variable(tf.random uniform([vocabulary. size, embedding. size], -1.0, 1.0)) 
A = tf. Variable(tf.random normal(shape-[embedding size, 1])) 

b = tf. Variable(tf.random normal(shape7[1, 1])) 

x data = tf.placeholder(shape-[None, max, words], dtype-tf.int32) 

y. target = tf.placeholder(shape-[None, 1], dtype-tf.float32) 

embed = tf.nn.embedding lookup(embeddings, x data) 

embed avg = tf.reduce mean(embed, 1) 

model output = tf.add(tf.matmul(embed avg, A), b) 

loss = tf.reduce mean(tf.nn.sigmoid cross entropy with logits(logitszmodel output, 
labels-y target)) 

my. opt - tf.train.AdagradOptimizer(0.005) 

train step = my. opt.minimize(loss) 


对 于 训练 过 程 中 的 评估 ， 采 取 输 出 训练 集 和 测试 集 的 准确 率 的 方式 ， 准 确 率 的 实现 


如 下 : 


01 
02 
03 


prediction = tf.round(tf.sigmoid(model output)) 
predictions correct = tf.cast(tf.equal(prediction, y. target), tf.float32) 
accuracy - tf.reduce mean(predictions correct) 


[8.3.3 EE 


对 于 影响 分 类 模型 的 训练 ， 使 用 前 面 保 存 的 CBOW 峰 套 变量 ， 对 训练 集 数据 进行 
训练 ， 并 且 每 迭代 100 次 保存 影评 分 类 模型 ， 和 迭代 500 次 后 打印 当前 的 准确 率 。 具 体 实 


现 如 下 : 


01 4IDnSECBOWHEESERE 

02 model checkpoint path = os.path.join('temp', 'cbow_movie_embeddings.ckpt') 
03 saver = tf.train.Saver(("'embeddings": embeddings)) 

04 saver.restore(sess, model checkpoint path) 


05 训练 模型 

06 train loss = 而 | 练 集 损失 值 

07 test loss - [] # 测 试 集 损失 值 

08 train acc - [] 州 咱 练 集 准确 率 

09 test acc - [] # 测 试 集 准确 率 

10 i data 7 [] 

11 foriin range(10000): 

12 rand index np.random.choice(text data train.shape[0], size-batch. size) 

13 rand x-text data train[rand index] 

14 rand y- np.transpose([target train(rand index]]) 

15  sess.run(train step, feed dict-[x data: rand x,y target: rand y]) 

16 HARIR, RA 

17  if(i- 1)96 100 == 0: 

18 i data.append(i + 1) 

19 train loss temp = sess.run(loss, feed dict-(x data: rand. x, y. target: rand. y]) 

20 train loss.append(train loss temp) 

21 test loss temp = sess.run(loss, feed dict-(x data:text data test, y target: 
np.transpose([target test]))) 

22 test loss.append(test loss temp) 

23 irain acc. temp = sess.run(accuracy, feed dict-(x data: rand. x, y. target: rand y]) 

24 train acc.append(train acc. temp) 

25 test acc temp = sess.run(accuracy, feed dict-(x data: text data test, y target: 
np.transpose([target test]))) 

26 test acc.append(test acc temp) 

27 if(i*1)96500-20: 

28 acc and loss = [i + 1, train loss temp, test loss temp, train acc temp, test acc temp] 

29 acc and loss - [np.round(x,2) for x in acc and loss] 

30 print('Generation # {}. Train Loss (Test Loss): (:.2f) ((:.2f)). Train Acc (Test Acc): (:.2f) 


([:.20)'.format(*acc. and loss)) 


运行 上 述 代码 ， 进 行 影评 分 类 模型 的 训练 ， 训 练 过 程 如 图 8.6 所 示 。 从 训练 过 程 可 以 
看 出 ， 其 实 最 简单 的 二 类 逻辑 回归 神经 网 络 模型 效果 并 不 理想 。 


|o 


Python+TensorFlow 机 器 学 习 实 战 


Starting Model Training 

Generation # 500. Train Loss (Test Loss): 0.71 (0.70). Train Acc (Test Acc): 9.49 (0.49) 
Generation # 1000. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 0.47 (0.49) 
Generation # 1500. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.51 (0.49) 
Generation # 2000. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.57 (0.49) 
Generation # 2500. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 9.41 (0.49) 
Generation # 3000. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.53 (0.49) 
Generation # 3500. Train Loss (Test Loss): 0.69 (0.780). Train Acc (Test Acc): 0.55 (0.49) 
Generation # 4000. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 0.43 (0.49) 
Generation # 4500. Train Loss (Test Loss): 0.70 (0.70). Train Acc (Test Acc): 0.52 (0.49) 
Generation # 5000. Train Loss (Test Loss): 0.70 (0.70). Train Acc (Test Acc): 0.46 (0.50) 
Generation # 5500. Train Loss (Test Loss): 0.70 (0.70). Train Acc (Test Acc): 9.41 (0.50) 
Generation # 6000. Train Loss (Test Loss): 0.73 (0.70). Train Acc (Test Acc): 0.41 (0.50) 
Generation # 6500. Train Loss (Test Loss): 0.70 (0.70). Train Acc (Test Acc): 0.57 (0.49) 
Generation # 7000. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.47 (0.50) 
Generation # 7500. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.52 (0.50) 
Generation # 8000. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 0.40 (0.50) 
Generation # 8500. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 0.32 (0.50) 
Generation # 9000. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.50 (0.51) 
Generation # 9500. Train Loss (Test Loss): 0.71 (0.70). Train Acc (Test Acc): 0.53 (0.51) 
Generation # 10000. Train Loss (Test Loss): 0.71 (0.70). Train Acc (Test Acc): 0.41 (0.51) 


图 8.6 ”影评 分 类 模型 的 训练 过 程 
通过 本 节 的 训练 ， 读 者 应 掌握 了 CBOW 棋 套 模 型 的 实现 ， 能 够 使 用 该 模型 对 影评 内 容 
进行 情感 分 析 ， 判 别 电影 的 正面 评价 和 负面 评价 。 


EZ 智能 聊天 机 器 人 M 


自然 语言 文本 处 理 的 另 一 个 重要 应 用 方向 就 是 自然 语言 的 人 机 交互 。 自 然 语 言 的 人 机 
交互 主要 应 用 于 两 方面 : 一 方面 应 用 于 与 用 户 的 对 话 ， 为 用 户 提供 对 应 的 服务 ， 例 如 客服 
机 器 人 、 苹 果 的 Siri， 另 一 方面 应 用 于 智能 硬件 ， 例 如 应 用 于 智能 家 居 领 域 ， 通 过 用 户 与 
家 居 管 家 的 对 话 ， 对 家 居 的 窗帘 、 灯 光 等 家 居 物 品 进行 控制 。 

在 自然 语言 的 人 机 交互 发 展 过 程 中 ， 主 要 经 历 了 如 下 三 个 阶段 : 

第 一 阶段 ， 选 用 的 技术 是 特征 工程 ， 通 过 大 量 的 if 和 else 进 行 逻辑 判断 。 

第 二 阶段 ， 选 用 的 技术 是 检索 库 ， 即 建立 问题 与 答案 的 检索 库 ， 当 给 定 一 个 问题 时 ， 
从 检索 库 中 找到 最 匹配 的 答案 。 

第 三 阶段 ， 选 用 的 技术 是 深度 学 习 。 通 过 对 语 料 的 大 量 训练 ， 可 以 根据 输入 ， 生 成 对 
应 的 输出 。 目 前 ， 智 能 聊天 机 器 人 正在 从 检索 库 逐 步 发 展 到 深度 学 习 。 

对 于 深度 学 习 的 算法 模型 ， 最 流行 的 是 Attention 机 制 的 Seq2Seq 模 型 。 


[8.4.1] Attention 机 制 的 Seq2Seq 模 型 


1. Seq2Seq 模 型 


Seq2Seq(Sequence to Sequence) 模 型 是 一 种 翻译 模型 ， 它 将 一 个 序列 翻译 成 另 一 个 序 
列 ， 被 广泛 应 用 于 序列 学 习 中 。 例 如 机 器 翻译 ， 就 是 输入 一 个 自然 语言 序列 忆 输出 对 应 


的 自然 语言 序列 也 可 以 用 于 英语 中 文 翻译 、 英 语法 语 翻译 等 。 例 如 聊天 机 器 人 ， 就 是 输 
入 一 个 人 类 的 自然 语言 序列 X， 计 算 机 根据 模型 生成 对 答 的 自然 语言 序列 Y。 再 如 看 图 说 
话 ， 就 是 输入 一 个 图 片 序列 X， 生 成 自然 语言 的 图 片 描 述 序列 7。 

Seq2Seq 模 型 在 2014 年 由 谷歌 提出 ， 其 主要 思路 是 使 用 一 个 循环 神经 网 络 模型 作为 编 
码 器 ， 使 用 另 一 个 循环 神经 网 络 模型 作为 解码 器 ， 通 过 编码 输入 、 解 码 输出 两 个 环节 实现 
从 一 个 序列 变换 到 另 一 个 序列 ， 模 型 框架 如 图 8.7 所 示 。 


图 8.7 ”Seq2Seq 模 型 框架 


对 于 输入 的 序列 X， 通 过 编码 器 进行 编码 生成 中 间 语 义 编码 C， 然 后 解码 器 对 中 间 语 义 
编码 C 进 行 解码 ， 在 每 个 时 刻 都 生成 对 应 的 y,、y、»», 从 而 生成 对 应 的 输出 序列 7。 
编码 就 是 对 各 类 长 度 不 同 的 输入 序列 X 使 用 编码 器 编译 为 向 量 C 的 过 程 。 其 中 ， 编 码 
器 一 般 使 用 循环 神经 网 络 模型 (RNN) 来 构建 ， 编 译 生成 的 向 量 C 通 常 也 就 是 循环 神经 网 
络 模型 中 的 最 后 一 个 隐 节 点 h， 或 是 多 个 隐 节 点 的 加 权 总 和 。 
he = f (xt ,hei) 
€ = g (fha, hup) 
解码 就 是 将 向 量 C 通 过 一 个 RNN 解 码 器 进行 解 译 ， 从 而 获取 对 应 概率 最 大 的 那个 词汇 
的 过 程 。 


St = fa St- C) 
POY <t ,X) = ge-y St C) 

从 计算 公式 中 可 以 看 出 ，Seq2Seq 模 型 与 自身 上 一 时 刻 的 状态 有 关 ， 随 着 输入 序列 的 
不 断 增 长 ， 这 种 对 时 间 序 列 的 计算 效果 会 表现 得 越 来 越 差 。 因 此 ， 在 基础 的 Seq2Seq 模 型 
中 引入 了 Attention 机 制 |。 

2. Attention 机 制 

Attention 机 制 源 于 认 知 心理 学 ， 是 指 人 们 在 做 一 件 事情 时 ， 会 专注 地 做 这 件 事情 而 忽 
略 周围 的 其 他 事情 。 通 过 在 基础 的 Seq2Seq 模 型 中 引入 Attention 机 制 ， 极 大 地 提升 了 序列 
学 习 任务 的 准确 率 。 

加 入 Attention 机 制 后 ， 会 对 输入 的 上 下 文 进行 一 次 基于 权重 的 筛选 。 通 过 这 种 加 权 方 
式 ， 可 以 让 神经 网 络 能 够 更 好 地 利用 语言 序列 在 时 序 上 的 结构 关系 。Attention 机 制 主要 从 
两 方面 来 提高 Seq2Seq 模 型 的 效率 : 一 是 结构 化 地 选取 输入 的 子 集 ， 降 低 数 据 维度 ， 从 而 
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减轻 处 理 高 维 输入 数据 的 计算 负担 ， 二 是 让 任务 处 理 更 专注 于 找到 输入 数据 中 与 当前 输出 
最 相关 的 有 用 信息 ， 从 而 提高 输出 的 质量 。 

在 实际 实现 过 程 中 可 以 在 编码 段 中 加 入 Attention 模 型 ， 对 源 数据 序列 进行 数据 加 权 变 
换 ， 也 可 以 在 解码 端 引入 Attention 模 型 ， 对 目标 数据 进行 加 权 变 换 ， 从 而 有 效 提高 输出 序 
列 对 输入 序列 的 准确 应 答 效果 。 


3. TensorFlow 方 法 


TensorFlow 针 对 Seq2Seq 模 型 提供 了 相应 的 方法 ， 在 tf.nn.seq2seq 文 件 中 ， 主 要 包括 以 
下 5 个 : 


basic_rnn_seq2seq(encoder_inputs, decoder_inputs, cell) 
tied_mn_seq2seq(encoder_inputs, decoder. inputs, cell) 
embedding rnn seq2seq(encoder. inputs, decoder. inputs, cell, num. encoder. symbols, 
num decoder symbols,output projectionzNone, feed previous-False) 
embedding tied rnn sea2sea(encoder. inputs, decoder inputs, cell, num encoder. symbols, 
num. decoder symbols,output projection-None, feed previous-False) 
embedding attention seq2seq(encoder. inputs,decoder inputs, cell, num encoder. symbols, 
num. decoder symbols,embedding size,num heads-1,output. projectionz None, 
feed previous-False, dtype-None, scope-None, initial state attention-False) 


basic_rnn_seq2seq() 是 最 简单 的 版 本 ， 输 入 和 输出 都 是 嵌入 形式 ， 并 且 将 编码 的 最 后 
一 步 的 状态 作为 解码 器 的 初始 状态 。 编 码 器 和 解码 器 使 用 相同 的 RNN cell， 但 不 共享 权 值 
参数 。 

tied_rnn_seq2seq() 是 basic_rnn_seq2seq() 的 变 体 ， 主 要 区 别 在 于 编码 器 和 解码 器 不 仅 使 
用 相同 的 RNN cell， 而 且 共享 权 值 参数 。 

embedding_rnn_seq2seq() 在 basic_rnn_seq2seq() 的 基础 上 对 输入 和 输出 的 编码 方式 进行 
了 修改 ， 在 编码 方式 上 改 为 id 形式 。 同 时 需要 在 方法 内 部 创建 分 别 用 于 编码 器 和 解码 器 的 
词 向 量 和 矩阵 。 编 码 器 和 解码 器 使 用 相同 的 DNN cell， 但 不 共享 权 值 参数 。 

embedding_tied_rnn_seq2seq() 与 embedding_rnn_seq2seq() 类 似 ， 只 是 编码 器 和 解码 器 
使 用 相同 的 RNN cell， 而 且 共 享 权 值 参数 。 

embedding_attention_seq2seq() 在 embedding_rnn_seq2seq() 的 基础 上 增加 了 Attention 机 
制 ， 也 是 我 们 主要 使 用 的 方法 ， 参 数 如 下 : 


embedding_attention_seq2seq(encoder_inputs, 
decoder_inputs, 
cell, 
num encoder symbols, 
num decoder symbols, 
embedding size, 
num heads-1, 
output projectionz None, 
feed previous-False, 
dtype-None, 
Scope-None, 
initial state attention-False): 


O 参数 encoder inputs 

表示 编码 器 的 输入 ， 是 int32 型 张 量 列表 。 

口 参数 decoder inputs 

表示 解码 器 的 输入 ， 是 int32 型 张 量 列表 。 

口 参数 cell 

表示 循环 神经 网 络 RNN_Cell 的 实例 。 

O 参数 num_encoder_symbols 与 num decoder symbols 

分 别 是 编码 和 解码 的 符号 数 。 

O 参数 embedding_size 

表示 词 向 量 的 维度 。 

O 参数 num_heads 

表示 Attention 的 抽 头 数量 ， 一 个 抽 头 算 一 种 加 权 求 和 方式 。 

口 参数 output_projection 

表示 在 将 解码 器 的 输出 向 量 投 影 到 词 表 空 间 时 ， 用 到 的 权 值 矩 阵 和 偏 置 项 (所 ，B)。 
其 中 ， 权 值 矩 阵 矿 的 维度 是 [output_ size，num_decoder_symbols]。 偏 置 项 下 的 维度 是 [rnum__ 
decoder symbols]。 若 此 参数 存在 且 feed_previous=True， 就 把 上 一 个 解码 器 的 输出 乘 以 
丈 ， 再 加 上 有 作为 下 一 个 解码 器 的 输入 。 

C) S feed previous 

若 为 True， 则 只 有 第 一 个 解码 器 的 输入 有 用 ， 所 有 的 解码 器 输入 都 依赖 于 上 一 步 
的 输出 。 

C) 参数 initial_state_attention 

默认 为 False， 初 始 的 Attention 是 零 ; 若 为 True， 则 初始 的 Attention 是 设置 值 。 


数据 预 处 理 


对 于 智能 聊天 机 器 人 的 实现 ， 我 们 采用 带 Attention 机 制 的 Seq2Seq 模 型 。 深 度 学 习 训 
练 的 第 一 步 就 是 训练 语 料 的 选择 和 处 理 。 

在 数据 集 上 ， 使 用 公开 的 康 奈 尔 大 学 的 电影 对 白 语料库 (Cornell Movie-Dialogs 
Corpus)。 这 是 一 个 从 电影 数据 中 生成 的 电影 对 白 语料库 ， 包 含 大 约 600 部 电影 对 白 ， 并 
且 语 料 中 含有 电影 名 、 角 色 和 IMDB 评分 等 许多 信息 。 该 语料库 中 的 原始 文件 包含 以 下 
A^: 


movie titles metadata.txt， 包 含 每 部 电影 的 名 称 信息 。 
movie_characters_metadata.txt， 包 含 每 部 电影 的 角色 信息 。 
movie_lines.txt， 包 含 每 个 对 话 表 达 的 实际 文本 。 
movie_conversations.txt， 包 含 对 话 的 结构 ， 用 语句 id 表 示 。 
raw_script_urls.txt， 包 含 原始 来 源 的 URL。 
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在 movie lines.txt 的 实际 对 白文 本 中 ， 包 括 编号 、 角 色 id、 电 影 id、 角 色 名 称 以 及 对 和 白 
内 容 ， 彼 此 之 间 使 用 “ +++$+++ ”进行 分 隔 ， 示 例如 下 : 

L1045 +++$+++ UO +++$+++ MO +++$+++ BIANCA +++$+++ They do not! L1044 +++$+++ U2 
+++$+++ MO +++$+++ CAMERON +++$+++ They do to! L985 +++$+++ UO 4 $4 MO +++$+++ 
BIANCA +++$+++ | hope so. L984 +++$+++ u2 4$ mO +++$+++ CAMERON +++$+++ She okay? 
L925 +++$+++ UO +++$+++ MO +++$+++ BIANCA +++$+++ Let's go. 


对 于 训练 数据 的 处 理 ， 主 要 包括 原始 数据 的 清洗 、 生 成 词汇 表 和 生成 词 编码 三 个 
Wm. 

1. 原始 数据 的 清洗 

在 智能 聊天 机 器 人 中 ， 我 们 关注 的 是 从 电影 对 白 内 容 中 学 习 获 取 对 话 的 能 力 。 先 把 数 
据 由 对 白 形式 整理 为 聊天 的 “ 问 ” 和 “ 答 ” 方 式 ， 分 别 生成 训练 集 和 测试 集 的 问答 文件 ， 

train.enc 

train.dec 

test.enc 

test.dec 

2. 生成 词汇 表 

词汇 表 的 生成 就 是 从 训练 数据 中 提取 出 所 有 的 单词 ， 并 统计 各 个 单词 出 现 的 次 数 。 为 
了 避免 低频 词 的 干扰 ， 同 时 减少 模型 参数 ， 我 们 只 保留 前 20 000 个 高 频 词 来 生成 词典 。 在 
实现 过 程 中 ， 增 加 了 Seq2Seq 模 型 中 常用 的 特殊 标记 : 

口 _PAD， 用 来 填充 序列 ， 保 证 每 批 次 的 序列 有 相同 的 长 度 。 

O GO, 标记 对 话 开始 。 

O _EOS， 标 记 对 话 结束 。 

O UNK, 标记 未 出 现在 词汇 表 中 的 字符 。 

对 于 问 句 文件 和 回答 文件 ， 生 成 不 同 的 词汇 表 : 

vocab20000.enc 

vocab20000.dec 

3. 生成 词 编码 

将 问 句 和 管 句 中 的 单词 根据 词汇 表 编 码 为 对 应 的 词 编 码 ， 并 保存 为 ds 文件 。 转 换 之 
后 生成 对 应 的 文件 : 


train.enc.ids20000 
train.dec.ids20000 
test.enc.ids20000 


EXE] uestem sum 


对 于 训练 模型 的 构建 ， 使 用 目前 最 流行 的 带 Attention 机 制 的 Seq2Seq 模 型 。 在 Seq2Seq 
模型 中 ， 选 择 LSTM 循 环 神经 网 络 或 扩展 层次 更 深 的 GRU 训 练 神经 网 络 。 对 于 训练 模型 的 


1 ”代码 请 参考 https://github.com/suriyadeepan/easy_seq2seq。 


生成 ， 具 体 实现 如 下 : 


01 def__init_ (self, source vocab size, target vocab size, buckets, size, 
num layers, max. gradient norm, batch. size, learning, rate, 
learning rate decay. factor, use Istm-False, 
num samples-512, forward only-False): 


02  selfsource vocab size = source vocab size # 问 句 词汇 表 大 小 

03  selftarget vocab size = target vocab size # 答 句 词汇 表 大 小 

04 self.buckets = buckets # 指 定 最 大 输入 、 输 出 长 度 
05  selfbatch size = batch size # 批 次 大 小 

06  selflearning rate = tf. Variable(float(learning rate), trainable=False) # 学 习 率 


07  selflearning rate decay. op = selflearning_rate.assign( 
self.learning rate * learning rate decay. factor) HARFE 
O8  self.global step = tf.Variable(0, trainable=False) 
09 output projection = None 
10  softmax loss function = None 
11 ## 样 本 量 小 于 词汇 表 ， 采 用 抽样 softmax 
12  ifnum samples >0and num samples < self.target vocab size: 
13 w = tf.get. variable("proj w", [size, self.target vocab size]) 
14 w t 7 tf.transpose(w) 
15 b = tf.get variable("proj b", [self.target vocab size]) 
16 output. projection 7 (w, b) 
17 # 定 义 softmax 损 失 值 
18 def sampled_loss(inputs, labels): 
19 labels = tf.reshape(labels, [-1, 1]) 
20 return tf.nn.sampled. softmax loss(w. t, b, inputs, labels, num samples, 
self.target vocab size) 
21 Softmax loss function = sampled loss 
22 # 构 建 RNN 的 单元 
23 single cell- tf.nn.rmn cell.GRUCell(size) 
24  ifuse lstm: 
25 single cell tf.nn.rnn cell.BasicLSTMCell(size) 
26  cell-single cell 
27 cel -tf.nn.mn cell.DropoutWrapper(cell, output keep prob-0.5) 
28  ifnum layers» 1: #0 果 模型 层 数 大 于 1 
29 cell = tf.nn.rnn_cell.MultiRNNCell([single_cell] * num layers) 
30 # 定 义 统一 的 Attention 模 型 函数 
31  defseq2seq f(encoder. inputs, decoder. inputs, do decode): 
32 return tf.nn.seq2seq.embedding attention seq2sea( 
encoder inputs, decoder. inputs, cell, 
num encoder symbols-source vocab size, 
num decoder symbols-target vocab size, 
embedding size-size, 
output projection-output projection, 
feed previous-do decode) 


在 完成 模型 所 需 函 数 的 定义 后 ， 再 处 理 模型 中 的 数据 ， 具 体 实现 如 下 : 


01 # 填 充 输入 数据 

02  self.encoder inputs - [] 
03  self.decoder inputs - [] 
04  selftarget weights = [] 


07 


09 


10 
11 


12 
13 
14 


15 
16 
17 


18 
19 


32 
33 


for i in xrange(buckets[-1][0]): # Last bucket is the biggest one. 
self.encoder. inputs.append(tf.placeholder(tf.int32, shape-[None], 
name-"encoder(0]" format(i))) 
for i in xrange(buckets[-1][1] + 1): 
self.decoder inputs.append(tf.placeholder(tf.int32, shape-[None], 
name-"decoder(0]" format(i))) 
self.target weights.append(tf.placeholder(tf.float32, shape-[None], 
namez"weight(0)".format(i))) 
# targets 值 是 解码 器 偏 移 
targets = [self.decoder_inputs[i + 1] 
for i in xrange(len(self.decoder inputs) - 1)] 
ARREA HRE 
if forward_only: 
self.outputs, selflosses = tf.nn.seq2seq.model_with_buckets( 
self.encoder_inputs, self.decoder_inputs, targets, 
self.target_weights, buckets, lambda x, y: seq2seq_f(x, y, True), 
softmax_loss_function=softmax_loss_function) 
if output_projection is not None: 
for b in xrange(len(buckets)): 
self.outputs[b] = [ 
tf.matmul(output, output. projection[0]) + output. projection[1] 
for output in self.outputs[b] ] 
else: 
self.outputs, self.losses = tf.nn.seq2seq.model with buckets( 
self.encoder. inputs, self.decoder inputs, targets, 
self.target weights, buckets, 
lambda x, y: seg2seq f(x, y, False), 
softmax loss function-softmax loss function) 
# 更 新 梯度 
params - tf.trainable variables() 
if not forward only: 
self.gradient norms = [] 
self.updates - [] 
opt  tf.train.AdamOptimizer() 
for b in xrange(len(buckets)): 
gradients - tf.gradients(self.losses[b], params) 
clipped gradients, norm = tf.clip by. global norm(gradients, 
max gradient norm) 
self.gradient norms.append(norm) 
self.updates.append(opt.apply gradients( 
zip(clipped gradients, params), global step-self.global step)) 
# 保 存 模型 
self.saver - tf.train.Saver(tf.global variables()) 


模型 运行 时 ， 每 一 步 的 具体 实现 如 下 : 


01 


02 
03 


def step(self, session, encoder. inputs, decoder. inputs, target weights, 
bucket id, forward only): 
encoder size, decoder size - self.buckets[bucket id] 
iflen(encoder inputs) !- encoder size: 


08 


09 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 


21 
22 
23 
24 
25 
26 
27 
28 
29 


raise ValueError("Encoder length must be equal to the one in bucket," 
" 96d !- 96d." 96 (len(encoder. inputs), encoder. size)) 
iflen(decoder. inputs) !- decoder. size: 
raise ValueError("Decoder length must be equal to the one in bucket," 
" 96d !- 96d." 96 (len(decoder inputs), decoder size)) 
iflen(target weights) !- decoder size: 
raise ValueError("Weights length must be equal to the one in bucket," 
" 96d != 96d." 96 (len(target weights), decoder. size)) 
# 对 输入 值 进行 填充 
input_feed = () 
for | in xrange(encoder. size): 
input_feed[selfencoder_inputs 由 .name] = encoder inputs([I] 
forlin xrange(decoder size): 
input. feed[self.decoder inputs[I].name] = decoder. inputs[I] 
input. feed[self.target weights[[].name] = target. weights[I] 
last target = self.decoder. inputs[decoder size].name 
input feed[last target] = np.zeros([self.batch size], dtype-np.int32) 
# 输 出 值 进行 填充 
if not forward_only: 
output. feed = [self.updates[bucket id], self.gradient norms[bucket id], 
self.losses[bucket id]] 
else: 
output. feed = [self.losses[bucket. id]] 
for | in xrange(decoder. size): 
output. feed.append(self.outputs[bucket id][I]) 
outputs = session.run(output feed, input feed) 
if not forward only: 
return outputs[1], outputs[2], None 
else: 
return None, outputs([0], outputs[1:] 


训练 模型 


对 于 智能 聊天 机 器 人 模型 的 训练 ， 由 于 训练 时 间 较 长 ， 创 建 模型 时 ， 可 以 新 建 模型 ， 
也 可 以 加 载 保存 的 模型 。 具 体 实现 如 下 : 


01 
02 


def create_model(session, forward_only): 
model = seq2seq_model.Seq2SeqModel( gConfig[enc_vocab size", 
gConfig['dec_vocab_size'], _buckets, gConfig['layer_size'], gConfig['num_layers'], 
gConfigf'max_gradient_norm', gConfig[batch_size], gConfig['learning rate'], 
gConfig[learning rate decay. factor'], forward_only=forward_only) 
if'pretrained model' in gConfig: 
model.saver.restore(session,gConfig['pretrained model']) 
return model 
Ckpt = tf.train.get checkpoint state(gConfig['working directory']) 
if ckpt and ckpt.model checkpoint path: 
print("Reading model parameters from 96s" 96 ckpt.model checkpoint path) 
model.saver.restore(session, ckpt.model checkpoint path) 
else: 


11  print("Created model with fresh parameters.") 
12  session.run(tf.global variables initializer()) 


13 retur model 

加 载 训练 模型 后 ， 对 数据 进行 分 批 训练 ， 并 保持 训练 过 程 。 具 体 实现 如 下 : 
01 deftrain(): 

02 # 准 备 数据 集 

03 print("Preparing data in %s" % gConfig[working_directory]) 

04 enc train, dec train, enc dev, dec_dev, _, _ =data_utils.prepare_custom_data 


(gConfig[ working. directory'],gConfig[train enc'],gConfig['train dec, 

gConfig['test enc'],gConfig['test dec],gConfigl'enc vocab size", 

gConfig('dec vocab size']) 
05 config = tf.ConfigProto() 
06 config.gpu options.allocator type = 'BFC' 
07 fr) oz 
08 with tf.Session(config-config) as sess: 
09 # 创 建 模型 
10  print("Creating 96d layers of %d units." % (gConfig['num_layers'], gConfig['layer_size')) 
11  model- create model(sess, False) 
12 # 读 取 数据 
13 print ("Reading development and training data (limit: 96d)." 

96 gConfig('max train data size']) 
14 dev set-read data(enc dev, dec dev) 
15 train set = read data(enc train, dec train, gConfig['max train data size) 
16 train bucket sizes = [len(train set[b]) for b in xrange(len( buckets))] 
17 train total size = float(sum(train bucket sizes)) 
18 train buckets scale = [sum(train bucket sizes[:i-- 1]) / train total size 
for iin xrange(len(train bucket sizes))] 
19 # 开 始 训练 
20 step time, loss = 0.0, 0.0 
21 current step - 0 
22 previous losses - [] 
23 while True: 
24 random number 01 = np.random.random_sample()# 往 成 随机 数 ， 用 于 bucket_id 
25 bucket id = min([i for i in xrange(len(train buckets scale)) 
iftrain buckets scale[i] > random number 01]) 
25 # 进 行 一 次 训练 
26 start time = time.time() 
27 encoder. inputs, decoder. inputs, target weights = model.get batch( 
train set, bucket id) 
28 .,Step loss, _ = model.step(sess, encoder. inputs, decoder inputs, 
target weights, bucket id, False) 
29 Step time += (time.time() - start time) / gConfigl'steps per checkpoint] 
30 loss += step loss / gConfig'steps per. checkpoint] 
31 current step += 1 
32 # 保 持 检查 点 ， 打 印 数据 
33 if current step % gConfig['steps per checkpoint'] == 0: 
34 perplexity = math.exp(loss) if loss < 300 else float('inf") 
35 print ("global step 96d learning rate 96.4f step-time 96.2f perplexity " 
"96.2f" 96 (model.global step.eval(), model.learning rate.eval(), 
Step time, perplexity)) 


36 北 0 果 损失 值 在 最 近 3 次 未 降低 ， 减 小 学 习 率 
37 if len(previous_losses) > 2 and loss > max(previous losses[-3:]): 


38 sess.run(model.learning rate decay op) 
39 previous losses.append(loss) 
40 # 保 持 检查 点 


41 checkpoint path = os.path.join(gConfig[ working directory'], "seq2seq.ckpt") 
42 model.saver.save(sess, checkpoint path, global step-model.global step) 
43 Step time, loss = 0.0, 0.0 


44 娃 J 印 相关 信息 

45 for bucket. id in xrange(len(_buckets)): 

46 iflen(dev set[bucket id]) == 0: 

47 print(" eval: empty bucket 96d" 96 (bucket. id)) 

48 continue 

49 encoder inputs, decoder inputs, target weights = model.get batch( 
dev. set, bucket. id) 

50 _, eval loss, _ = model.step(sess, encoder. inputs, decoder inputs, 

target weights, bucket id, True) 
51 eval ppx = math.exp(eval loss) if eval loss < 300 else float('inf") 


52 print(" eval: bucket 96d perplexity 96.2f" 96 (bucket. id, eval ppx)) 
53 Sys.stdout.flush() 


运行 以 上 代码 ， 对 智能 聊天 机 器 人 模型 进行 训练 。 由 于 数据 量 以 及 模型 的 复杂 性 ， 训 
练 时 间 需 要 几 个 小 时 ， 建 议 使 用 GPU 进行 训练 。 


EXE sem 
完成 智能 聊天 机 器 人 模型 的 训练 后 ， 使 用 训练 获取 的 模型 进行 简单 的 人 机 对 话 ， 评 估 


训练 效果 ， 具 体 实现 如 下 : 


01 def decode(): 

02 with tf.Session() as sess: 

03 # 创 建 模型 

04  model- create model(sess, True) 

O5  modelbatch size = 1 # 一 问 一 答 ， 每 次 解析 一 句 话 

06 震 喊 词汇 表 

07 enc vocab path = os.path.join(gConfig['working_directory'],"vocab%d.enc" 
96 gConfig['enc vocab size) 

08 dec vocab path = os.path.join(gConfig[ working, directory], vocab96d.dec" 
96 gConfig'dec. vocab. size']) 

09 enc vocab, - data utils.initialize vocabulary(enc vocab path) 

10 .,Tev dec vocab = data utils.initialize vocabulary(dec vocab path) 

11 # 对 输入 数据 进行 解码 

12  sys.stdout.write("» ") 

13  sys.stdout.flush() 

14 sentence - sys.stdin.readline() 

15 while sentence: 

16 token ids = data utils.sentence to token ids(tf.compat.as bytes(sentence), 

enc vocab) ”# 获 取 输 入 语句 的 ids 
17 bucket. id = min([b for b in xrange(len( buckets)) 
18 if buckets[b][0] > len(token. ids)]) 
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19 encoder. inputs, decoder. inputs, target weights = model.get batch( 
(bucket, id: [(token ids, [])]]], bucket. id) 
20 _, — Output logits = model.step(sess, encoder. inputs, decoder. inputs, 
target weights, bucket id, True) 
21 outputs = [int(np.argmax(logit, axis 1)) for logit in output logits] 


22 ifdata utils.EOS D in outputs: iiBEJEOS, ， 则 结束 
23 outputs = outputs[:outputs.index(data_utils.EOS_ID)] 
24 # 输 出 语句 


25 print(" ".join([tf.compat.as_str(rev_dec_vocab[output]) for output in outputs])) 
26 print("» ", end="") 

27 Sys.stdout.flush() 

28 sentence - sys.stdin.readline() 


在 完成 模型 的 训练 后 ， 运 行 代码 进行 测试 ， 结 果 如 下 : 


> Hello 

Hi 

> Are you a robot? 
Yes,you too 

> thank you 
thanks 


从 训练 结果 可 以 看 出 ， 对 于 短 句 ， 智 能 机 器 人 能 够 给 出 相应 的 回答 ， 而 对 于 稍微 复杂 
一 点 的 语句 ， 机 器 人 的 表现 不 尽 如 人 意 。 一 方面 模型 较为 简单 ， 只 是 注重 实现 智能 机 器 人 
的 原理 ， 另 一 方面 模型 的 训练 也 是 不 够 的 。 

在 实际 的 商业 应 用 中 ， 微 软 小 冰 、Google Now 等 都 表现 不 俗 。 对 于 国内 的 中 文智 能 机 
器 人 ， 除 了 BAT( 代 指 百度 、 阿 里 巴巴 和 腾讯 公司 ) 之 外 还 有 科大 讯 飞 、 竹 间 智 能 科技 等 都 
在 自然 语言 处 理 方面 有 着 不 错 的 实践 。 


LET NN RN A 


本 章 主 要 讲解 了 TensorFlow 在 自然 语言 文本 处 理 中 的 应 用 ， 分 别 以 学 写 唐诗 、 智 能 影 
评分 类 和 智能 聊天 机 器 人 为 例 ， 详 细 讲 解 了 数据 集 的 处 理 、 模 型 的 构建 、 训 练 和 评估 模型 
等 。 另 外 ， 对 自然 语言 文本 处 理 中 的 写作 学 习 、 文 本 情感 分 析 和 问答 系统 等 常见 应 用 也 进 
行 了 示例 讲解 。 


第 9 章 


语音 处 理 


虽然 在 前 一 章 中 ， 我 们 对 自然 语言 文 
本 处 理 进行 了 介绍 ， 但 在 自然 语言 中 ， 
还 有 更 重要 的 语音 交流 尚未 涵盖 。 因 
此 ， 在 本 章 中 ， 我 们 将 针对 TensorFlow 
在 语音 处 理 方面 的 应 用 进行 讲解 。 


对 语音 的 处 理 主要 包括 语音 识别 和 语音 合成 两 大 类 。 

语音 识别 就 是 让 机 器 通过 识别 、 理 解 等 过 程 把 语音 信号 转换 为 相应 的 文本 或 命令 ， 
通俗 而 言 就 是 让 计算 机 “上 听 懂 ”人 类 语音 。 语 音 识别 可 以 说 是 当下 人 工 智能 发 展 的 重要 入 
口 ， 们 果 的 Siri、 亚 马 逊 的 Echo 以 及 国内 的 讯 飞 语 记 、 小 米 的 小 爱 同学 等 ， 都 已 经 具备 不 
错 的 功能 ， 可 以 说 语音 识别 正在 进入 我 们 的 生活 。 

语音 合成 与 语音 识别 的 过 程 正好 相反 ， 从 广义 上 讲 ， 语 音 合成 是 指 通过 机 械 的 、 电 子 
的 方法 产生 人 造 语 音 ， 而 我 们 通常 所 说 的 语音 合成 是 指 将 计算 机 自己 产生 的 或 外 部 输入 的 
文字 信息 转换 为 语音 输出 。 


9.1.1 Ea 


语音 识别 模型 从 功能 步骤 上 可 以 分 为 三 步 : 第 一 步 从 语音 中 提取 特征 ， 获 取 语 音 向 
量 ， 第 二 步 对 语音 向 量 进行 解码 ;第 三 步 获取 结果 。 

在 语音 识别 中 ， 关 键 技术 就 是 对 于 语音 向 量 的 训练 解码 过 程 ， 主 要 包括 声学 模型 的 、 
字典 以 及 语言 模型 的 构建 。 整 个 语音 识别 的 典型 模型 如 图 9.1 所 示 。 


语言 模型 
图 9.1 语音 识别 模型 
1. 声学 特征 提取 
对 于 一 段 语音 ， 从 输入 开始 ， 在 声学 特征 提取 阶段 主要 完成 如 下 操作 。 
(D 格式 转换 


输入 语音 之 后 ， 进 行 模 数 转换 ， 将 模拟 信号 转变 为 数字 信号 。 在 实际 的 音频 文件 处 理 
中 ， 一 般 都 选择 未 经 压缩 的 纯 波形 文件 ， 比 如 Windows 的 .wav 文 件 。 常 见 的 音频 格式 (如 
MP3) 等 ， 都 是 经 过 压缩 处 理 的 ， 需 要 进行 格式 转换 。 

(2) 音频 预 处 理 

对 音频 数字 信号 的 预 处 理 主 要 是 指 去 除 首 尾 两 端的 静音 部 分 ， 从 而 降低 对 后 续 步 又 造 
成 的 干扰 。 

(3) 分 帧 处 理 

分 帧 处 理 就 是 把 声音 文件 切 成 各 小 段 ， 每 一 小 段 ， 称 为 一 帧 。 在 分 帧 操作 时 ， 并 不 是 
简单 随意 地 将 音频 文件 切 开 ， 而 是 通过 移动 窗 函 数 的 方式 来 实现 ， 让 每 一 帧 音频 并 不 独立 
存在 而 是 互相 关联 。 

(4) 特征 提取 

完成 分 帧 处 理 后 ， 语 音 就 变 成 了 很 多 小 段 ， 我 们 可 以 在 每 一 小 段 语音 上 进行 特征 
提取 。 最 常用 的 一 种 提取 方法 是 Mel 频 率 倒 谱系 数 (MFCC) 方 法 ， 可 通过 该 方法 获得 声 
学 特征 。 

采用 MFCC 方 法 提取 声学 特征 的 过 程 主要 包括 对 分 帧 信号 进行 FFT， 得 到 不 同时 间 窗 
内 对 应 的 频谱 ， 然 后 将 频谱 通过 Mel 滤 波 器 组 得 到 Mel 频 谱 ， 之 后 在 Mel 频 谱 上 进行 取 对 
数 、 做 逆 变 换 、 获 取 DCT 等 操作 ， 从 而 获得 MFCC， 该 MFCC 就 是 这 帧 语音 的 特征 。 

Python 提供 了 一 个 常用 于 音频 、 乐 音信 号 分 析 的 工具 包 1librosa， 其 中 提供 了 处 理 语音 
的 方法 ， 包 括 MFCC 方 法 。 

2. 声学 模型 

声学 模型 (Acoustic Model，AM) 可 以 理解 为 对 发 声 的 建 模 。 它 能 够 把 语音 输入 转换 成 
语言 发 音 的 声音 元 素 ， 然 后 将 这 些 声 音 元 素 转换 为 可 以 识别 的 字母 的 模型 。 

声学 模型 一 般 使 用 高 斯 混合 模型 (GMM) 或 深度 神经 网 络 (DNN) 等 方法 来 完成 声音 元 素 
的 识别 ， 再 使 用 隐 马 尔 可 夫 模型 (HMMD) 或 动态 时 间 归 整 (DTW) 等 算法 来 对 齐 识别 结果 ， 从 
而 判断 对 应 的 单词 。 


3. 字典 

字典 用 于 判断 连续 声音 元 素 表达 的 具体 是 哪个 单词 。 因 为 多 数 情 况 下 ， 通 过 模型 识别 
的 每 个 声音 元 素 并 不 是 个 完整 的 单词 ， 无 法 对 应 到 正确 的 语言 文字 输出 。 当 需要 识别 出 多 
个 声音 元 素 时 ， 利 用 字典 可 以 判断 所 表达 的 具体 单词 。 

4. 语言 模型 

语言 模型 的 作用 是 在 声学 模型 给 出 发 音 序 列 之 后 ， 从 候选 的 文字 序列 中 找 出 概率 最 大 
的 字符 串 序列 ， 目 前 最 常用 的 是 N-Gram 语 言 模 型 和 基于 RNN 的 语言 模型 。 


[9.1.2 语音 合成 公开 

语音 合成 模型 从 功能 上 可 以 分 为 两 步 : 一 是 文本 处 理 ， 二 是 语音 合成 。 

在 文本 处 理 中 ， 主 要 是 把 文本 转换 成 音素 序列 ， 并 标 出 每 个 音素 的 起 止 时 间 、 频 率 变 
化 等 信息 。 文 本 处 理 是 语音 合成 前 的 预 处 理 步骤 ， 涉 及 很 多 处 理 中 的 细节 问题 ， 例 如 拼写 
相同 但 读音 不 同 的 词 的 区 分 、 缩 写 的 处 理 、 停 顿 位 置 的 确定 等 。 

在 语音 合成 中 ， 依 据 音素 序列 生成 语音 。 在 生成 语音 的 过 程 中 ， 主 要 有 三 类 方法 ， 分 
别 是 拼接 法 、 参 数 法 以 及 波形 统计 语音 合成 。 

拼接 法 是 指 从 事先 录制 的 大 量 语音 中 ， 选 择 所 需 的 基本 单位 拼接 合成 语音 。 这 样 合成 
的 语音 ， 虽 然 是 由 真人 录制 的 声音 ， 听 起 来 都 是 正确 的 读音 ， 但 是 缺少 文本 中 的 情感 。 
而 且 ， 如 果 出 现 语音 库 中 没有 对 应 的 语音 ， 或 者 文本 处 理 时 标注 出 错 等 情况 ， 最 终 的 发 
音 自 然 也 是 错误 的 。 因 此 ， 为 了 保证 语音 的 高 质量 特性 ， 语 音 库 需要 足够 庞大 才能 保证 
覆盖 率 。 

参数 法 根据 统计 模型 来 产生 每 时 每 刻 的 语音 参数 ， 主 要 是 基 频 、 共 振 峰 频率 等 。 然 后 
把 这 些 参 数 通过 声 码 器 (vocoder) 生 成 波形 。 由 于 这 种 方法 使 用 统计 模型 进行 预测 ， 因 此 对 
于 语音 库 里 的 标注 错误 并 不 敏感 。 但 最 后 输出 的 是 用 声 码 器 合成 的 声音 ， 毕 竟 有 损失 ， 所 
以 听 起 来 不 自然 。 

波形 统计 语音 合成 是 基于 深度 学 习 的 神经 网 络 实现 的 ， 主 要 特点 是 不 对 语音 信号 进行 
参数 化 ， 而 是 采用 神经 网 络 算法 直接 预测 合成 语音 波形 的 每 一 个 采样 点 。 采 用 这 种 方法 合 
成 的 语音 ， 在 音质 方面 略 差 于 拼接 法 ， 但 相对 于 拼接 法 而 言 系 统 更 稳定 。 由 于 需要 预测 每 
一 个 采样 点 ， 需 要 进行 大 量 的 运算 ， 因 此 合成 速度 较 慢 。 以 前 由 于 各 种 原因 导致 无 法 实现 
基于 波形 的 统计 合成 系统 ， 后 来 谷歌 发 布 了 WaveNet 模 型 ， 证 明了 语音 信号 可 以 在 时 域 上 
进行 预测 ， 此 类 实现 方法 是 现 阶段 研究 的 一 个 热点 。 


LE ma 和 电 


语音 识别 的 目标 就 是 听 懂 人 类 语言 ， 而 最 基础 的 人 类 语言 就 是 数字 。 在 本 节 中 ， 我 们 
将 创建 一 个 简单 的 英文 数字 识别 器 。 
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9.2.1 esc 


对 于 英文 数字 的 识别 ， 在 训练 数据 集 上 ， 我 们 选择 的 是 spoken_numbers_pcm 数 据 集 。 
该 数据 集 是 许多 人 阅读 0~9 十 个 数字 的 英文 音频 ， 分 男声 和 女声 。 文 件 名 的 命名 方法 为 
“数字 人 名 _xxx”， 例 如 : 


8 Susan 200.wav 
8 Kate 300.wav 


数据 预 处 理 主要 是 对 音频 文件 的 声学 特征 进行 提取 ， 采 用 的 是 最 常用 的 Mel 频 率 倒 谱 
系数 (MFCC) 方 法 '， 具 体 实 现 如 下 : 
01 import tensorflow as tf 


02 import librosa # 使 用 MFCC 方 法 
03 width = 20 #MFCC 特 征 

04 height= 80 # 最 大 发 声 长 度 
05 classes= 10 # 数 字 类 别 


06 batch = word batch = speech data.mfcc batch generator(batch size) # 调 用 具体 方法 
07 X, Y 7 next(batch) 

08 trainX, trainY 7 X, Y 

09 testX, testY = X, Y 

10 # mfcc_batch_generator 方 法 ， 生 成 一 批 MFCC 语 言 

11 def mfcc_batch_generator(batch_size=10, source=Source.DIGIT_WAVES, target=Target.digits): 
12 maybe download(source, DATA. DIR) # 下 载 数据 集 

13 iftarget == Target.speaker: speakers = get speakers() 

14 batch features - [] 

15 labels 7 [] 

16 files = os.listdir(path) 

17 while True: # 将 数据 集中 的 音频 处 理 为 音频 和 标签 
18  print("loaded batch of 96d files" 96 len(files)) 

19  shuffle(files) 

20  forwavin files: 

21 if not wav.endswith(" wav"): continue 

22 wave, sr = librosa.load(path-*wav, mono-True) 

23 if target--Target.speaker: labelzone hot from item(speaker(wav), speakers)# 编 码 
24 elif target--Target.digits: labelzdense to one hot(int(wav[0]),10) 

25 elif target--Target.first letter: labelzdense to one hot((ord(wav[0]) - 48) % 32,32) 
26 else: raise Exception("todo : labels for Target!") 

27 labels.append(label) 

28 mfcc = librosa.feature.mfcc(wave, sr) # 获 取 MFCC 

29 mfcc=np.pad(mifcc,((0,0),(0,80-len(mfcc[0]))), mode-'constant', constant_values=0) 
30 batch_features.append(np.array(mfcc)) 

31 iflen(batch features) >= batch size: 

32 yield batch features, labels 

33 batch. features = [] 

24 labels = [] 
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由 于 输入 数据 只 是 某 个 数字 的 读音 ， 是 单个 声音 元 素 ， 因 此 不 需要 额外 使 用 声学 模型 
和 字典 。 对 于 训练 网 络 使 用 LSTM 循 环 神经 网 络 。 识 别 模型 的 构建 使 用 TFLearn 第 三 方 库 
来 实现 ， 具 体 实现 如 下 : 


01 import tflearn 

02 net = tflearn.input data([None, width, height]) 

03 net = tflearn.Istm(net, 128, dropout-0.8) 

04 net tflearn.fully connected(net, classes, activation-'softmax") 

05 net = tflearn.regression(net, optimizer-'adam', learning rate-learning rate, loss-'categorical . 
crossentropy") 


[9.2.3 sse 


进行 识别 模型 的 训练 ， 并 在 完成 训练 后 保存 模型 ， 具 体 实现 如 下 : 


01 model= tflearn.DNN(net, tensorboard_verbose=0) 

02 while 1: 

03 model.fit(trainX, trainY, n_epoch=10, validation_set=(testX, testY), show_metric=True, 
batch_size=batch_size) 

04 _y=model.predict(X) 

05 model.save("tflearn.Istm.model") 


[9.2.4 sess 
任意 输入 数据 集中 的 一 个 文件 ， 使 用 训练 模型 进行 预测 评估 ， 具 体 实现 如 下 : 


demo_file="8_Susan_200.wav" 
demo=speech_data.load_wav_file(speech_data.path+demo_file) 
result=model.predict([demo]) 

result=numpy.argmax(result) 

print("the file is 96s : result is %d"%(demo file,result)) 


在 完成 模型 的 训练 后 ， 运 行 代码 进行 测试 ， 结 果 如 下 : 


the file is 8_Susan_200.wav : result is 8 


结果 是 准确 的 ， 能 够 正确 地 识别 出 数字 “8”。 
对 于 简单 的 数字 语音 识别 ， 训 练 模型 较 简单 且 训练 的 准确 率 也 较 高 。 


LE me e A 


除了 能 够 听 懂 数字 ， 机 器 学 习 也 能 听 懂 中 文 。 在 进行 英文 数字 这 样 的 单 音素 语音 识 
别 时 ， 由 于 输入 音素 和 识别 结果 这 样 的 场景 相对 简单 ， 因 此 实现 的 过 程 也 相对 简单 。 但 
是 对 于 真实 环境 中 自然 语言 的 语音 识别 ， 就 需要 增加 语音 的 前 期 处 理 ， 主 要 包括 词汇 表 
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的 生成 等 。 
接 下 来 ， 将 详细 讲解 简单 的 中 文 语音 识别 。 


数据 预 处 理 


在 数据 集 上 ， 我 们 使 用 公开 的 清华 大 学 连续 普通 话 数据 库 (THCHS-30)， 这 是 清华 大 学 
录制 的 含 30 个 小 时 的 中 文 语音 库 。 该 语音 库 选 取 了 大 量 的 新 闻 稿 件 ， 由 大 学 生 使 用 流利 的 
普通 话 在 安静 的 办 公 室 环境 中 进行 录音 ， 总 时 长 超过 30 个 小 时 。 数 据 集 文 件 如 图 9.2 所 示 。 


= 


名 称 大 小 
di - 

L noise 

L test 

d| test-noise 

D train 

Ji train-noise 


图 9.2 THCHS-30 数 据 集 


数据 集 按 照 有 无 噪声 分 为 两 类 。 

对 于 无 噪音 数据 集 ， 分 别 存放 在 train 和 test 文 件 夹 中 ， 从 而 区 别 训练 数据 集 和 测试 
数据 集 。 将 train 文 件 夹 中 的 数据 分 为 ABC 三 组 ，A 组 的 句子 id 是 0~249，B 组 的 句子 id 是 
250~499，C 组 的 句子 id 是 500~749， 这 三 组 共 包括 30 个 人 的 10 893 名 发音， 主要 作为 训练 
数据 集 。 将 test 文 件 夹 中 的 数据 归 为 D 组 ，D 组 的 句子 id 是 751~1000， 包 括 10 个 人 的 2496 句 

音 ， 用 于 测试 。 

对 于 噪音 数据 集 ， 分 别 存放 在 noise、train-noise 以 及 test-noise 文 件 夹 中 。 其 中 ，noise 
文件 夹 中 存放 的 是 白 噪声 ， 如 汽车 噪声 和 咖啡 馆 噪声 等 。train-noise 和 test-noise 文 件 夹 中 分 
别 存放 的 是 原始 录音 以 及 对 噪声 进行 波形 混合 之 后 的 结果 。 

对 于 数据 集 的 处 理 ， 主 要 步骤 包括 原始 数据 的 获取 、 生 成 词汇 表 和 生成 词 编码 '。 

1. 原始 数据 的 获取 

在 数据 集中 包括 训练 用 的 音频 文件 和 对 应 的 文本 文件 。 首 先 ， 我 们 获取 音频 文件 ， 具 
体 实现 如 下 : 


01 wav path = 'data/wav/train' 

02 defget wav. files(wav path = wav. path): 

O3 wav files - [] 

O4  for(dirpath, dirnames, filenames) in os.walk(wav. path): 


05 for filename in filenames: 

06 if flename.endswith(" wav") or filename.endswith(" WAV"): 
07 filename path = os.sep.join([dirpath, filename]) 

08 if os.stat(fllename path).st size < 240000: 


1 «3 -https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/speech 
commands. 


rr 


09 continue 
10 wav. files.append(filename path) 
11 return wav. files 


文本 文件 是 语音 对 应 的 文本 ， 将 文本 文件 作为 语音 文件 的 标签 进行 一 一 对 应 ， 具 体 实 
现 如 下 : 


01 wav. files = get wav. files() 

02 defget wav label(wav files = wav. files, label file = label file): 
O3 labels dict - () 

04 with open(label file, "r", encoding-"utf-8") as f: 

05 for label in f: 


06 label = label.strip(^n") 

07 label id, label text = label.split( ', 1) 
08 labels dict[label id] = label text 

09 labels 7 [] 


10 new wav. files = [] 
11  forwav. file in wav. files: 


12 wav. id = os.path.basename(wav. file).split(".")[O] 
13 if wav idin labels dict: 

14 labels.append(labels dict(wav id]) 

15 new wav files.append(wav. file) 

16 return new. wav files, labels 

2. 生成 词汇 表 


从 训练 数据 中 提取 出 所 有 的 单词 ， 并 统计 各 个 单词 出 现 的 次 数 ， 生 成 要 使 用 的 词汇 
表 ， 具 体 实现 如 下 : 


01 alLwords  [] 

02  forlabelin labels: 

03 all words += [word for word in label] 

04 counter = Counter(all words) 

05 count pairs = sorted(counter.items(), keyzlambda x: -x[1]) 
06 words, -zip(*count pairs) 

07 words size = len(words) 

O8 ”print(u" 词 汇 表 大 小 : ", words. size) 


3. 生成 词 编码 
对 于 语音 的 输入 ， 需 要 根据 词汇 表 进 行 编码 ， 然 后 才能 使 用 。 编 码 过 程 的 具体 实现 
如 下 : 


01 word num map = dict(zip(words, range(len(words)))) 

02 to num - lambda word: word num map.get(word, len(words)) 

03 ”# 将 单个 文件 的 标签 映射 为 数字 ， 返 回 对 应 的 列表 ， 最 终 所 有 的 文件 组 成 谋 套 列表 
O4 labels vector = [list(map(to num, label)) for label in labels] 


完成 对 应 的 词汇 映射 后 ， 为 了 后 续 分 块 处 理 ， 获 取 最 长 句子 的 字数 以 及 最 长 语音 的 长 
具体 实现 如 下 : 


01 label max len = np.max([len(label) for label in labels vector]) 
02 ”print(u'" 最 长 句子 的 字数 :" + str(label max len)) 
03 wav max len=0 
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for wav in wav. files: 
wav,sr =librosaload(wav,mono=True)# 处 理 语 音信 号 的 库 librosa 
IDs eC 
mfcc=np.transposel(librosa.feature.mfcc(wav,sr),[1,0])# 特征 提取 函数 ， 转 置 特征 参数 
if len(mfcc)>wav_max_len: 
wav. max len = len(mfcc) 
print(" 最 长 的 语音 \, wav max len) 


[9.3.2] 构建 识别 模型 


由 于 涉及 识别 问题 ， 因 此 考虑 使 用 卷 积 神经 网 络 。 为 了 提高 训练 过 程 中 的 效果 ， 使 用 
残 次 网 络 (Residual Network) 这 种 在 深度 神经 网 络 算法 中 经 常 使 用 的 技巧 。 


1. 神经 网 络 架 构 
神经 网 络 架构 的 具体 实现 如 下 : 
01 defspeech to text network(n dim = 128, n blocks = 3): 
02  out-conv!id layer(input tensor-X, size-1, dim = n. dim, activation-'tanh', scale-0.14, 
bias-False) # 卷 积 层 输出 
03  #Skip Connection 技 巧 
04  defresidual block(input sensor, size, rate): 
05 conv. filter = aconvid layer(input tensor-input sensor, size-size, rate-rate, 
activation-'tanh', scale-0.03, bias-False) 
06 conv. gate = aconv1d layer(input. tensor-input sensor, size-size, rate-rate, 
activation-'sigmoid', scale-0.03, bias-False) 
07 out = conv. filter * conv. gate 
08 out = convd layer(out, size = 1, dim-n dim, activation-'tanh', scale-0.08, 
bias-False) 
09 return out * input. sensor, out 
10 skip=0 
11 for inrange(n blocks): 
12 for r in [1, 2, 4, 8, 16]: 
13 out, s = residual block(out, size = 7, rate = r) 
14 skip += s 
15 # 两 个 卷 积 层 
16 logit= conv1d_layer(skip, size = 1, dim = skip.get_shape().as_list()[-1], activation-'tanh', 
scale = 0.08, bias-False) 
17 .— # 最 后 那个 卷 积 层 的 输出 值 大 小 是 词汇 表 大 小 
18 logit = conv1d layer(logit, size = 1, dim = words. size, activation = None, scale = 0.04, 
bias = True) 
19 return logit 


对 于 上 述 实现 的 神经 网 络 模型 ， 在 conv1d_layer 卷 积 层 中 完成 对 应 的 卷 积 处 理 ， 具 体 
实现 如 下 : 


01 conv1d_index =0 


03 
04 
05 


02 def conv1d_layer(input_tensor, size, dim, activation, scale, bias): 


global convid. index 失忆 录 卷 积 层 数 
with tf.variable scope("conv1d "- str(conv1d_index)): 
W = tf.get. variable(W', (size, input. tensor.get shape().as list()[- 1], dim), 


dtype=tffloat32, initializer-tf.random uniform initializer(minval--scale, maxval-scale)) 


06 if bias: 
07 b - tf.get variable('b', [dim], dtype = tf.float32, initializer-tf.constant initializer(0)) 
08 out = tf.nn.conv1d(input, tensor, W, stride-1, padding-'"SAME")& HH tái A fe] js 
09 if not bias: 
10 beta = tf.get. variable('beta', dim, dtype-tf.float32, 
initializer-tf.constant initializer(O)) 
11 gamma = tf.get. variable'gamma', dim, dtype-tf.float32, 
initializer-tf.constant initializer(1) ) 
12 mean running = tf.get variable('mean', dim, dtype-tf.float32, 
initializer-tf.constant initializer(0)) #1 
13 variance running = tf.get variable('variance', dim, dtype-tf.float32, 
initializer-tf.constant initializer(1) ) #5% 
14 mean, variance - tf.nn.moments(out, axes-list(range(len(out.get shape()) - 1))) 
15 def update running. stat(): 
16 decay = 0.99 
17 # 更 新 操作 ， 完 成 均值 、 方 差 指数 衰减 
18 update op = [mean running.assign(mean running * decay + mean * (1 - 
decay)), variance running.assign(variance running * decay 
* variance * (1 - decay))] 
19 with tf.control dependencies(update op): 
20 return tf.identity(mean), tf.identity(variance) 
21 m, v = tf.cond(tf. Variable(False, trainable-False), update running. stat.lambda: 
(mean. running, variance. running)) 
22 out = tf.nn.batch normalization(out, m, v, beta, gamma, 1e-8) 
23 if activation == 'tanh': 
24 out = tf.nn.tanh(out) 
25 elif activation == 'sigmoid': 
26 out = tf.nn.sigmoid(out) 
27 conv1d_index += 1 
28 return out 
aconvld layer 卷 积 层 的 具体 实现 如 下 : 


01 aconv1d_index =0 
02 def aconv1d_layer(input_tensor, size, rate, activation, scale, bias): 


03 


07 


09 
10 
11 
12 


13 


global aconv1d index 
with tf.variable scope('aconv1d ' + str(aconv1d index)): 


shape = input tensor.get shaper().as list() 

W = tf.get. variable(W', (1, size, shape[- 1], shape[-1]), dtype-tf.float32, 

initializer-tf.random. uniform initializer(minval--scale, maxval-scale)) 

if bias: 
b = tf.get variable('b', [shape[-1]], dtype-tf.float32, 
initializer-tf.constant initializer(O)) 

out = tf.nn.atrous conv2d(tf.expand dims(input tensor, dim=1), W, rate = rate, 
padding-'SAME*) 

out  tf.squeeze(out, [1]) 

if not bias: 
beta = tf.get variable('beta', shape[- 1], dtype-tf.float32, 
initializer-tf.constant initializer(O)) 
gamma = tf.get variablegamma', shape[- 1], dtype-tf.float32, 
initializer-tf.constant initializer(1) ) 


14 mean running = tf.get. variable('mean', shape[-1], dtype=tffloat32， 
initializer-tf.constant initializer(O)) 


15 variance running = tf.get. variable('variance', shape[- 1], dtype-tf.float32, 
initializer-tf.constant initializer(1) ) 

16 mean, variance - tf.nn.moments(out, axes-list(range(len(out.get shape()) - 1))) 

17 def update running stat(): 

18 decay = 0.99 

19 update op = [mean running.assign(mean running * decay + mean * (1 - 


decay)), variance running.assign(variance running * decay 
* variance * (1 - decay))] 


20 with tf.control dependencies(update op): 

21 return tf.identity(mean), tf.identity(variance) 

22 m, v = tf.cond(tf.Variable(False, trainable-False), update running. stat,lambda: 
(mean running, variance running)) 

23 out = tf.nn.batch normalization(out, m, v, beta, gamma, 1e-8) 

24 if activation == 'tanh": 

25 out = tf.nn.tanh(out) 

26 elif activation == 'sigmoid': 

27 out = tf.nn.sigmoid(out) 

28 aconvid index += 1 

29 return out 

2. 获取 每 批 数据 


在 实际 训练 中 ， 需 要 对 每 批 数据 进行 处 理 。 在 数据 的 处 理 中 ， 主 要 包括 数据 的 转换 和 


对 齐 等 ， 具 体 实现 如 下 : 


01 batch size-8 # 每 次 取 8 个 文件 
02 n batch = len(wav. files)//batch size 
03 pointer =0 # 全 局 变量 的 初始 值 为 0， 定 义 该 变量 以 逐步 确定 batch 


04 defget next batches(batch size): 
05 global pointer 

06 batches wavs-[] 

07 batches labels - [] 

08  foriin range(batch size): 


09 wawv,sr-librosa.load(wav. files[pointer]jmono- True) 
10 mfcc -np.transpose(librosa.feature.mfcc(wav,sr),[1,0]) 
11 batches wavs.append(mfcc.tolist()) # 转 换 成 列表 后 存 入 


12 batches labels.append(labels vector[pointer]) 
13 pointer+=1 


14  4HhOXITE 

15  formfccin batches wavs: 

16 while len(mfcc)«wav. max len: 
17 mfcc.append([0]*20) 


18  forlabelin batches labels: 
19 while len(label)clabel max len: 


20 label.append(0) 
21 return batches wavs,batches labels 
22 X-tf.placeholder(dtype-tf.float32,shape-[batch size,None,20]) # 定 义 输入 格式 


23 sequence len = tf.reduce sum(tf.cast(tf.not equal(tf.reduce sum(X,reduction indices-2), 
0.), tf.int32), reduction indices-1) 
24 Y= tf.placeholder(dtype-tf.int32,shape-[batch size,None]) # 输 出 格式 


rr 


[9.3.3| 训练 模型 


使 用 数据 集 数 据 对 构建 的 识别 模型 进行 训练 ， 并 在 完成 训练 后 保存 模型 ， 具 体 实现 


如 下 : 


01 deftrain speech to text network(wav max len): 


02 
03 


21 


22 
23 
24 


logit = speech to text network() 
# CTC 损 失 函 数 
indices = tf.where(tf.not equal(tf.cast(Y, tf.float32), O.)) 
target = tf.SparseTensor(indices-indices, values-tf.gather nd(Y, indices) - 1, 
dense shape-tf.cast(tf.shape(Y), tf.int64)) 
loss = tf.nn.ctc. loss(target, logit, sequence len, time major-False) 
Ir = tf. Variable(0.001, dtypeztf.float32, trainable-False) 
optimizer = MaxPropOptimizer(learning rate-lr, beta2-0.99) 
var. list = [t for t in tf.trainable variables()] 
gradient = optimizer.compute gradients(loss, var. list-var. list) 
optimizer op = optimizer.apply gradients(gradient) 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
saver - tf.train.Saver(tf.global variables()) 
for epoch in range(16): 
sess.run(tf.assign(Ir, 0.001 * (0.97 ** epoch))) 
global pointer 
pointer = 0 
for batch in range(n_batch): 
batches_wavs, batches_labels = get_next_batches( 
batch, size, wav. max len) 
train loss, _ = sess.run([loss, optimizer op], feed dict- 
(X: batches wavs, Y: batches labels)) 
print(epoch, batch, train. loss) 
if epoch 96 5 == 0: 
saver.save(sess, '/speech.module', global step-epoch) 


数据 的 训练 时 间 和 使 用 的 设备 性 能 有 关 ， 如 果 使 用 非 GPU 进 行 训练 ， 一 般 需 要 两 到 


EUR. 


EEZ sess 
完成 对 模型 的 构建 和 训练 后 ， 接 下 来 使 用 测试 数据 集中 的 数据 对 模型 进行 测试 ， 具 体 


实现 如 下 : 
01 def speech_to_text(wav_file): 


02 


wav, Sr = librosa.load(wav. file, mono=True) 
mfcc = np.transpose(np.expand_dims(librosa.feature.mfcc(wayv, sr), axis=0), [0, 2, 1]) 
logit = speech_to_text_network() 
saver = tf.train.Saver() 
with tf.Session() as sess: 
saver.restore(sess, tf.train.latest checkpoint('.")) 
decoded = tf.transpose(logit, perm=[1, 0, 2]) 


EE 
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09 decoded, -tf.nn.ctc beam search. decoder(decoded, sequence len, 
merge repeated-False) 

10 predict = tf.sparse to dense(decoded([0].indices, decoded[0].shape, 
decoded[0].values) + 1 

11 output = sess.run(decoded, feed dict-(X: mfcc)) 

12 print(output) 


通过 本 节 的 练习 ， 我 们 掌握 了 最 基础 的 语音 识别 处 理 方式 。 


ILC 和 


前 面 介绍 了 语音 识别 ， 这 是 一 种 从 语音 实现 文本 输出 的 技术 。 本 节 将 讲解 语音 合成 ， 
这 是 一 种 从 文本 转换 为 自然 语音 输出 的 技术 。 


[9.4.1] Tacotron 模 型 


我 们 已 经 介绍 过 语音 合成 是 一 项 复杂 的 工程 ， 包 括 文本 分 析 、 音 频 合 成 等 步骤 ， 涉 
及 多 种 技术 。 谷 歌 作为 人 工 智能 领域 的 先行 者 ， 为 后 来 人 提供 了 丰富 的 模型 和 工具 ， 例 如 
Tacotron 模 型 !'。 

Tacotron 是 一 个 端 到 端的 语音 合成 模型 ， 该 模型 的 核心 结构 是 具有 Attention 机 制 的 
Seq2Seq 模 型 。 它 将 一 系列 文本 向 量 转换 为 对 应 的 音频 。 该 模型 的 结构 如 图 9.3 所 示 。 


为 所 有 解码 过 程 都 
应 用 Attention 机 制 


图 9.3 Tacotron 模 型 的 结构 


1 ”相关 内 容 请 参考 https://arxiv.org/pdf/1703.10135.pdf。 


er 


Tacotron 模 型 可 以 分 为 编码 器 、 解 码 器 以 及 后 处 理 网 络 三 大 模块 。 
图 9.3 的 左 侧 是 编码 器 模块 ， 主 要 用 于 对 输入 的 文本 进行 编码 转换 。 首 先 对 文本 进行 


数据 处 理 ， 然 后 转换 为 独 热 向 量 ， 作 为 编码 器 的 输入 。 在 编码 器 中 ， 在 经 过 预 处 理 模 块 


处 到 


后 ， 将 向 量 输入 特征 提取 (CBHG) 模 块 中 ， 最 后 从 CBHG 模 块 中 得 到 原始 文本 的 表示 


序列 。 


图 9.3 的 右 下 方 是 解码 器 模块 ， 它 从 输入 序列 中 学 习 得 到 音频 幅度 采样 ， 网 络 结构 中 


主要 包括 预 处 理 模块 、Attention-RNN 以 及 解码 器 RNN 三 部 分 。 


图 9.3 的 右上 角 是 后 处 理 网 络 模块 。 该 模块 对 解码 器 输出 的 线性 幅度 采样 ， 进 行 处 理 


并 使 用 Griffin-Lim 算 法 将 线性 谱 图 合成 为 语音 输出 。 


| 9.4.2 E 


洗 、 


在 编码 器 模块 中 ， 主 要 完成 对 输入 的 文本 数据 进行 编码 的 过 程 ， 包 括 原始 数据 的 清 
生成 词汇 表 、 转 换 词 编码 ， 从 而 转换 为 数据 向 量 。 然 后 对 数据 向 量 进行 预 处 理 和 特征 


提取 ， 从 而 获得 输入 文本 的 有 效 表 示 序 列 '。 


先 ， 


1. 生成 词汇 表 


因为 纯 文本 数据 无 法 作为 深度 学 习 的 输入 ， 所 以 需要 将 文本 转换 为 对 应 的 向 量 。 首 
需要 生成 词汇 表 ， 然 后 通过 遍历 词汇 表 将 文本 转换 成 对 应 的 向 量 。 词 汇 表 的 生成 基于 


语料库 ， 具 体 实现 如 下 : 


01 def create_vocabulary(vocabulary_path, data_paths, max_vocabulary_size, tokenizer=None): 
02 ifnotos.path.exists(vocabulary_path): 

03 print("Creating vocabulary %s from data %s" % (vocabulary_path, str(data_paths))) 

04 vocab = defaultdict(int) 

05 for path in data_paths: 


06 with codecs.open(path, mode-"r", encoding="utf-8") as fr: 
07 counter = 0 

08 for line in fr: 

09 counter += 1 

10 if counter % 100000 == 0: 

11 print(" processing line 96d" 96 (counter,)) 

12 tokens - tokenizer(line) 

13 for w in tokens: 

14 word = re.sub( DIGIT. RE, "", w) 

15 vocab[word] += 1 

16 vocab list = sorted(vocab, key-vocab.get, reverse-True) 
17 print("Vocabulary size: 96d" % len(vocab list)) 

18 iflen(vocab list) > max. vocabulary. size: 

19 vocab list = vocab list;:max vocabulary size] 


20 with codecs.open(vocabulary path, mode-"w', encoding-"utf-8") as vocab file: 
21 for w in vocab list: 
22 vocab file.write(w + ^n") 


1 ”代码 可 参考 https://github.com/Kyubyong/tacotron。 
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2. 生成 词 向 量 


生成 词汇 表 后 ， 要 对 每 一 个 输入 的 文本 进行 词 向 量 的 转换 ， 具 体 实现 如 下 : 


01 embedding_table = tf.get_variable( 

02 'embedding', [textinput.num_symbols(), 256], dtype=tf.float32, 
initializer=tftruncated_normal_initializer(stddev=0.5)) 

03 embedded inputs = tf.nn.embedding lookup(embedding table, inputs) 


3. 预 处 理 
对 于 输入 的 词 向 量 要 进行 预 处 理 。 在 预 处 理 的 神经 网 络 中 ， 具 有 两 个 隐 层 ， 层 与 层 


之 间 的 连接 均 是 全 连接 。 第 一 个 隐 层 的 神经 元 节点 数 与 输入 的 神经 元 节点 数 相同 ， 都 为 
256， 选 择 第 二 个 隐 层 的 神经 元 节点 数 为 128。 两 个 隐 层 的 激活 函数 使 用 全 连接 中 常用 的 
relu 函 数 。 为 了 保证 训练 过 程 的 随机 性 ， 选 择 Dropout 为 0.5， 具 体 实 现 如 下 : 


01 def prenet(inputs, is. training, layer_sizes=[256, 128], scope-None): 

02 x-inputs 

03 drop rate = 0.5 ifis training else 0.0 

O4 with tf.variable scope(scope or 'prenet): 

05 fori, size in enumerate(layer sizes): 

06 dense = tf.layers.dense(x, units-size, activation-tf.nn.relu, name-'dense 96d' 96 (i+1)) 
07 x = tf.layers.dropout(dense, rate-drop rate, name-'dropout 96d' 96 (i+1)) 

08 retumx 


4. CBHG 模 块 
CBHG 模 块 是 Tacotron 的 重要 模块 ， 主 要 用 于 从 输入 中 提取 有 价值 的 特征 ， 有 利于 提 


高 模型 的 泛 化 能 力 。CBHG 模 块 的 结构 如 图 9.4 所 示 。 


图 9.4 ”CBHG 模 块 的 结构 
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从 图 9.4 中 可 以 很 明显 地 看 到 ，CBHG 模 块 由 卷 积 层 、 高 速 神经 网 络 层 以 及 双向 
RNN 组 成 。 

在 卷 积 层 中 ， 整 体 上 分 为 4 个 隐 层 。 第 一 层 是 K 个 大 小 不 同 的 一 维 卷 积 核 ， 卷 积 核 的 
大 小 分 别 为 1、2、3、…、K。 采 用 这 些 大 小 不 同 的 卷 积 核 从 原始 信息 中 提取 长 度 不 同 的 
上 下 文 信息 。 然 后 第 二 层 是 池 化 层 ， 对 获取 的 信息 进行 池 化 处 理 。 第 三 层 和 第 四 层 是 卷 积 
层 ， 对 经 过 池 化 处 理 的 信息 进行 卷 积 处 理 。 完 成 卷 积 层 的 处 理 后 ， 将 卷 积 层 的 输出 移入 
之 后 的 序列 相 加 ， 进 行 直 连 接 。 

对 于 卷 积 层 ， 具 体 实现 如 下 : 


01 def conv1d(inputs, kernel_size, channels, activation, is_training, scope): 
02 with tf.variable_scope(scope): 

O3  convid output = tf.layers.conv1d( 

04 inputs, 

05 fiters=channels, 

06 kernel_size=kernel_size, 

07 activation-activation, 

08 padding-'same") 

O9 return tf.layers.batch normalization(conv1d. output, training-is training) 


高 速 神经 网 络 层 的 目的 就 是 提高 学 习 效 率 。 将 高 速 神经 网 络 层 中 每 一 层 的 结构 设 
计 为 : 将 输入 同时 放 入 两 个 一 层 的 全 连接 网 络 中 ， 这 两 个 网 络 的 激活 函数 分 别 是 relu 
和 sigmoid 函 数 。 假 设 输 入 为 input，relu 函 数 的 输出 为 output1，sigmoid 函 数 的 输出 为 
output2， 则 高 速 神经 网 络 层 的 输出 output=output1xoutput2+inputx(1-output2)。 

为 了 缓解 网 络 加 深 带 来 的 过 拟 合 问题 以 及 减少 较 深 网 络 的 训练 难度 ， 在 实践 中 采取 四 
层 的 高 速 神经 网 络 层 ， 具 体 实现 如 下 : 


01 def highwaynet(inputs, scope): 
02 with tf.variable_scope(scope): 
03 H= tf.layers.dense( 

inputs, 

units=128, 

activation=tf.nn.relu, 

name='H') 
04 T=tflayers.dense( 

inputs, 

units=128, 

activation=tf.nn.sigmoid, 

name-'T, 

bias initializer-tf.constant initializer(-1.0)) 
05  retum H* T + inputs * (1.0 - T) 


在 双向 RNN 层 ， 对 高 速 神经 网 络 层 的 输出 进行 训练 ， 获 取 最 终 的 输出 。 
因此 ， 整 个 CBHG 模 块 的 具体 实现 如 下 : 

01 def cbhg(inputs, input. lengths, is_training, scope, K, projections): 

02 with tf.variable scope(scope): 


O3 with tf.variable scope('conv bank): 
04 conv outputs - tf.concat( 
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05 


07 
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[conv1d(inputs, k, 128, tf.nn.relu, is training, 'conv1d 96d' 96 k) for k in range(1, K+1)], 
axis--1 

) 
maxpool output = tf.layers.max . pooling1d( 
conv Outputs, 
pool size-2, 
strides=1, 
padding-'same") 
proj1. output = conv1d(maxpool output, 3, projections[0], tf.nn.relu, is training, 'proj 1") 
proj2. output = conv1d(proj1 output, 3, projections[1], None, is. training, 'proj 2") 
highway. input = proj2 output + inputs 
if highway. input.shape[2] != 128: 

highway. input = tf.layers.dense(highway. input, 128) 
foriin range(4) : 

highway. input  highwaynet(highway. input, 'highway. 96d' 96 (i+1)) 
rnn. input = highway. input 
outputs, states = tf.nn.bidirectional dynamic rnn( 
GRUCelI(128), 
GRUCelI(128), 
rmn input, 
sequence lengthzinput lengths, 
dtype-tf.float32) 
return tf.concat(outputs, axis=2) # Concat forward and backward 


EEE] esses 


在 解码 器 模块 中 ， 网 络 结构 主要 包括 预 处 理 模块 、Attention-RNN 以 及 解码 器 RNN 


三 部 分 。 


预 处 理 模块 的 结构 与 编码 器 中 的 解码 器 相同 ， 主 要 是 对 输入 做 一 些 非 线性 变换 。 
Attention-RNN 是 带 有 Attention 机 制 的 RNN 模 型 ， 主 要 目的 是 减少 训练 时 间 ， 提 高 训练 


效率 。 


解码 器 RNN 为 两 层 残 差 GRU 组 成 的 循环 神经 网 络 。 
解码 器 模块 的 具体 实现 如 下 : 


01 
02 


03 


05 


# Attention 

attention cell = AttentionWrapper( 
DecoderPrenetWrapper(GRUCell(256), is. training), 
BahdanauAttention(256, encoder. outputs), 
alignment historyzTrue, 

output. attention-False) 

concat. cell = ConcatOutputAndAttentionWrapper(attention cell) 
decoder. cell = MultiRNNCell([ 
OutputProjectionWrapper(concat. cell, 256), 
ResidualWrapper(GRUCell(256)), 
ResidualWrapper(GRUCell(256)) 

] state is tuple-True) 

output cell = OutputProjectionWrapper(decoder cell, 
hp.num mels * hp.outputs per step) 


06 decoder. init state = output_cell.zero_state(batch_size=batch_size, dtype-tf.float32) 
07 ifis training: 


08 helper = TacoTrainingHelper(inputs, mel targets, hp.num mels, 
hp.outputs per step) 
09 else: 


10 helper = TacoTestHelper(batch size, hp.num mels, hp.outputs per step) 

11 (decoder outputs, ),final decoder state, _ = tf.contrib.seg2seq.dynamic decode( 
BasicDecoder(output cell, helper, decoder. init state), 
maximum iterations-hp.max  iters) 


在 实践 中 ， 每 次 解码 时 ， 不 只 预测 一 帧 的 数据 ， 而 是 预测 多 个 非 重 县 的 帧 。 因 为 在 提 
取 音 频 特 征 时 ， 会 先 分 帧 ， 相 邻 的 帧 其 实 有 一 定 的 关联 性 ， 所 以 每 个 字符 在 发 音 时 ， 可 能 
对 应 多 个 帧 ， 而 每 个 GRU 单 元 能 够 输出 为 音频 文件 中 的 多 个 帧 。 通 过 这 样 的 处 理 ， 减 小 了 
模型 的 大 小 ， 从 而 降低 了 模型 的 复杂 度 ， 也 就 减少 了 模型 的 训练 和 预测 时 间 ， 提 高 了 收敛 
速度 。 


| 9.4.4| 后 处 理 模块 


Tacotron 与 一 般 的 Seq2Seq 网 络 对 解码 输出 结果 的 处 理 不 一 样 ， 不 是 直接 将 结果 作为 输 
出 结果 ， 然 后 采用 Griffin-Lim 算 法 合成 音频 。 为 了 有 效 使 用 Griffin-Lim 算 法 ， 对 输出 结果 
进行 了 后 处 理 。 

由 于 使 用 Griffin-Lim 算 法 的 前 提 是 能 够 获取 所 有 的 音频 帧 ， 因 此 后 处 理 模块 的 目的 就 
是 能 够 获取 整个 解码 序列 。 

在 实践 中 ， 使 用 CBHG 模 块 作为 后 处 理 模 块 ， 具 体 实现 如 下 : 


01 5 增加 后 处 理 模块 
02 post. outputs = post cbhg(mel outputs, hp.num mels, is training) 
03 linear. outputs = tf.layers.dense(post outputs, hp.num freq) 


通过 本 节 的 训练 ， 我 们 了 解 了 完成 语音 合成 的 Tacotron 模 型 。 


Dose 和 白 


本 章 主要 讲解 TensorFlow 在 语音 处 理 方面 的 应 用 ， 分 别 以 听 懂 数字 、 听 懂 中 文 以 及 语 
音 合成 为 例 ， 详 细 介绍 了 机 器 学 习 在 各 种 实例 中 的 应 用 。 
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图 像 处 理 


在 前 面 章节 中 ， 我 们 针对 机 器 学 习 在 
文本 、 语 音 方面 的 应 用 进行 了 讲解 。 在 本 
章 中 ， 将 针对 机 器 学 习 在 图 像 方面 的 应 用 
进行 讲解 ， 让 计算 机 具备 视觉 能 力 。 


| 加 太阳 机 器 学 习 的 图 像 处 理 简介 


图 像 处 理 是 计算 机 应 用 的 一 个 重要 场景 ， 常 见 的 处 理 有 图 像 数字 化 、 图 像 编码 、 图 像 
增强 、 图 像 复 原 、 图 像 分 割 和 图 像 分 析 等 。 只 有 具备 了 图 像 处 理 能 力 ， 才 能 让 计算 机 模拟 
人 的 视觉 机 理 ， 通 过 对 图 像 中 的 纹理 、 颜 色 等 信息 进行 建 模 、 变 形 、 分 割 等 处 理 ， 让 计算 
机 具备 感知 和 理解 图 像 的 能 力 ， 使 得 计算 机 拥有 “视觉 系统 ”， 能 够 “看 到 ”这 个 五 彩 缤 
纷 的 世界 。 

机 器 学 习 在 图 像 处 理 方面 的 应 用 就 是 通过 机 器 学 习 ， 让 计算 机 能 够 具备 更 强大 的 图 像 
处 理 能 力 和 更 高 准确 度 的 模式 识别 能 力 ， 具 有 更 强大 的 “视觉 系统 ”。 

使 用 机 器 学 习 进 行 图 像 处 理 的 技术 已 成 功 应 用 到 图 像 修复 、 物 体 识别 、 物 体检 测 、 图 
像 问答 和 人 脸 识别 等 领域 。 


EXE] ses 


传统 的 针对 图 像 处 理 的 研究 方法 主要 基于 数学 和 物理 知识 。 由 于 深度 学 习 近 些 年 的 发 
展 ， 越 来 越 多 的 图 形 学 研究 者 将 机 器 学 习 的 方法 应 用 到 图 像 处 理 领 域 ， 特 别 是 在 图 像 编辑 
和 图 像 生成 方面 已 经 取得 一 定 的 成 效 。 

图 像 修复 是 图 像 编辑 和 图 像 生成 领域 的 一 个 典型 问题 。 通 俗 来 讲 ， 图 像 修复 就 是 针对 
一 张 被 挖 了 洞 的 照片 ， 利 用 照片 中 的 其 他 信息 将 洞 补 上 的 过 程 。 

对 于 图 像 修复 问题 ， 核 心思 想 就 是 利用 图 像 文件 本 身 的 元 余 性 ， 利 用 图 像 已 知 部 分 的 
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信息 来 补 全 未 知 部 分 。 修 复 的 流程 分 为 两 大 步骤 ， 首 先 选择 待 修补 的 像素 ， 然 后 进行 搜索 
补 全 。 在 选择 待 修补 像素 时 ， 对 于 补 全 区 域 边 界 的 像素 依次 计算 补 全 的 优先 度 ， 然 后 选择 
优先 度 高 的 进行 修补 。 也 就 是 说 ， 选 择 周围 像素 可 信 度 高 以 及 图 像 梯 度 变化 剧烈 的 位 置 进 
行 优先 修补 。 在 搜索 补 全 时 ， 对 于 补 全 像素 ， 使 用 周围 小 的 像素 块 ， 然 后 在 图 像 已 知 部 分 
搜索 所 有 的 像素 块 ， 找 到 最 相似 的 像素 块 ， 使 用 它们 补 全 未 知 部 分 。 这 样 不 断 迭 代 ， 对 图 
像 进行 修复 。 

这 种 方式 在 实际 实施 的 过 程 中 ， 存 在 两 个 问题 : 一 是 如 果 图 像 已 知 部 分 找 不 到 相似 
的 像素 块 ， 算 法 将 无 法 进行 ， 二 是 搜索 相似 的 像素 块 时 ， 计 算 复杂 度 会 非常 高 ， 算 法 运 
行 效率 低 。 

为 了 有 效 解决 这 两 个 问题 ， 对 算法 进行 了 改进 。 一 方面 ， 当 在 图 像 已 知 部 分 找 不 到 相 
似 像素 块 时 ， 从 互联 网 上 存在 的 大 量 图 片 中 寻找 素材 ， 另 一 方面 ， 针 对 逐步 补 全 效率 低 的 
问题 ， 采 取 直 接 从 其 他 图 像 中 抠 出 完整 的 一 块 来 填补 的 方法 。 

随 着 神经 网 络 算法 的 崛起 ， 针 对 图 像 修复 问题 也 引入 了 机 器 学 习 方 式 来 进行 解决 。 通 
常 ， 利 用 卷 积 神经 网 络 来 学 习 图 像 中 的 高 准确 度 特征 ， 利 用 特征 来 指导 图 像 缺失 部 分 的 生 
成 。 通 过 将 大 数据 和 图 像 高 准确 度 特征 组 合 起 来 ， 使 图 像 修复 得 到 极 大 的 完善 。 


图 像 物体 识别 与 检测 


在 图 像 处 理 中 ， 很 重要 的 一 个 应 用 领域 就 是 识别 、 检 测 图 像 中 的 物体 和 景物 等 。 图 像 
物体 识别 指 的 是 对 一 张 图 片 进 行 分 析 ， 识 别 出 这 张 图 片 中 包含 的 物体 。 图 像 物体 检测 指 的 
是 检测 物体 出 现在 图 像 中 的 什么 地 方 ， 一 般 需要 将 物体 以 外 接 矩 形 框 的 形式 显示 出 来 。 

图 像 物体 识别 与 检测 在 实际 生活 中 有 着 广泛 的 应 用 ， 例 如 交通 领域 的 交通 场景 物体 识 
别 、 车 辆 计数 、 逆 行 检测 、 车 牌 检测 与 识别 ， 安 防 领域 的 人 脸 识别 、 行 人 检测 、 智 能 视频 
分 析 、 行 人 跟踪 等 ， 互 联网 领域 的 基于 内 容 的 图 像 检索 、 相 册 自动 归 类 等 。 

由 于 卷 积 神经 网 络 在 模式 识别 方面 具有 较 强 的 表现 能 力 ， 因 此 ， 图 像 物体 识别 与 检测 
方面 的 算法 也 多 在 卷 积 神经 网 络 的 基础 上 进行 改进 ， 常 用 的 算法 如 下 。 

1. DPM 


DPM(Deformable Parts Model) 是 一 种 非常 成 功 的 目标 检测 算法 ， 是 21 世 纪 初 最 常用 
的 检测 算法 ， 是 众多 分 类 器 、 分 割 、 人 体 姿 态 和 行为 分 类 的 重要 组 成 部 分 。 它 的 整体 思 
路 是 ， 首先 计算 梯度 方向 直方 图 ， 然 后 通过 SVM 训练 得 到 物体 的 梯度 模型 ， 最 后 使 用 这 
些 模型 进行 分 类 检测 。 由 于 在 计算 过 程 中 使 用 的 是 传统 的 滑动 窗口 方法 ， 因 此 计算 量 非 
常 大 。 

2. OverFeat 

该 算法 是 Alex-Net 算 法 的 改进 版 ， 它 使 用 图 像 缩放 和 滑动 窗口 的 方法 ， 在 一 个 卷 积 网 
络 中 同时 完成 物体 识别 、 定 位 和 检测 三 个 任务 。 该 算法 在 ILSVRC2013 竞 赛 中 获得 了 很 好 
的 结果 。 
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3. DeepID-Net 

DeepID-Net 是 一 种 卷 积 神经 网 络 模型 ， 将 输入 的 图 片 分 解 到 一 个 160 维 的 向 量 。 然 后 
在 这 个 160 维 的 向 量 上 ， 套 用 各 种 现成 的 分 类 器 ， 即 可 得 到 结果 。 有 目前， 该 算法 主要 用 于 
人 脸 识 别 。 

4. RCNN 

RCNN 算 法 使 用 聚 类 的 方法 ， 对 图 像 进行 分 组 ， 得 到 含 多 个 候选 框 的 层次 组 ， 然 后 
判断 这 些 候选 框 中 的 任何 一 个 是 否 对 应 着 一 个 具体 对 象 。 整 个 计算 过 程 是 : 首先 使 用 
Selective Search 从 原始 图 片 中 提取 2000 个 候选 框 ， 然 后 将 候选 框 缩放 成 固定 大 小 ， 最 后 使 
用 CNN 和 全 连接 层 进 行 分 类 。 

5. Fast RCNN 

顾名思义 ， 该 算法 是 RCNN 算 法 的 改进 ， 去 掉 了 RCNN 算 法 中 的 重复 计算 ， 并 微调 了 
候选 框 的 位 置 ， 解 决 了 RCNN 算 法 训练 慢 的 问题 。 主 要 变化 是 引入 了 感 兴趣 区 域 池 化 (ROTI 
Pooling)， 整 个 计算 过 程 是 ， 首先 将 原 图 通过 CNN 提 取 特 征 ， 然 后 提取 候选 框 并 将 候选 框 
投影 到 特征 图 上 ， 池 化 采样 成 固定 大 小 ， 最 后 经 过 两 个 全 连接 以 进行 分 类 与 微调 。 

6. Faster RCNN 

该 算法 也 主要 用 于 解决 RCNN 算 法 训练 慢 的 问题 ， 它 重复 利用 多 个 区 域 中 相同 的 
CNN 结 果 ， 几 乎 把 边框 生成 过 程 的 运算 量 降 为 0。 整 个 计算 过 程 是 : 首先 使 用 CNN 提 取 
特征 ， 然 后 经 过 卷 积 核 为 3X3X256 的 卷 积 ， 在 每 个 点 上 预测 k 个 目标 窗口 (anchor box) 
是 否 是 物体 ， 并 微调 目标 窗口 的 位 置 ， 从 而 提取 出 候选 框 。 对 于 候选 框 ， 采 用 与 Fast 
RCNN 算 法 同样 的 方式 进行 分 类 。 

7. SPP-Net 

该 算法 将 空间 金字 塔 池 化 引入 视觉 识别 神经 网 络 模型 。 它 与 RCNN 算 法 的 区 别 是 ， 在 
全 连接 层 输入 时 不 再 需要 归 一 化 图 像 尺 寸 ， 同 时 增加 了 空间 金字 塔 池 化 层 ， 每 张 图 片 只 需 
要 提取 一 次 特征 ， 这 样 提取 到 的 特征 有 更 好 的 尺度 不 变性 ， 可 以 降低 过 拟 合 的 可 能 性 。 

8.YOLO 

这 是 一 种 标准 化 的 、 实 时 的 目标 检测 算法 ， 与 RCNN 算 法 最 大 的 区 别 在 于 极 大 减少 
了 读 取 图 的 次 数 。 在 RCNN 算 法 中 ， 需 要 对 一 张 图 中 划分 的 2000 个 目标 窗口 判断 是 否 是 物 
体 ， 然 后 再 进行 物体 识别 。YOLO 算 法 对 物体 框 的 选择 和 识别 进行 了 结合 ， 将 原 图 缩放 成 
448 像 素 X448 像 素 大 小 ， 然 后 运行 单个 CNN 来 计算 物体 中 心 是 否 落 入 单元 格 、 物 体 的 位 
置 、 物 体 的 类 别 等 。 但 是 ， 若 在 7X7 框 架 下 识别 物体 ， 当 遇 到 大 量 小 物体 时 则 难以 处 理 。 

9. SSD 
SSD 算 法 结合 了 YOLO 和 Faster RCNN 算 法 的 优势 ， 能 够 在 不 同 层级 的 特征 图 谱 中 进 

识别 ， 能 够 覆盖 更 广 的 范围 ， 相 比 于 YOLO 算 法 ， 两 者 速度 接近 ， 但 SSD 算 法 的 精度 
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图 像 问答 不 仅仅 针对 图 像 处 理 ， 还 针对 前 面 章 节 中 介绍 的 自然 语言 文本 处 理 ， 一 般 基 
于 卷 积 神经 网 络 和 LSTM 单 元 的 结合 ， 实 现 对 图 像 的 分 析 描 述 。 


KOJ 图 像 物 体 识别 M 


对 图 像 中 物体 的 识别 是 TensorFlow 在 图 像 处 理 中 最 基本 的 一 项 应 用 。 在 本 节 中 将 实现 
对 Cifar-10 数 据 集 图 像 中 物体 的 识别 。 


[10.2.1 «m 


对 于 数据 集 ， 我 们 使 用 公开 的 Cifar-10 数 据 集 。Cifar 是 由 加 拿 大 政府 牵头 投资 的 科学 
项 目 研究 所 ，Cifar-10 数 据 集 用 于 图 像 物 体 识别 。 


Cifar-10 数 据 集 包含 60 000 张 RGB 彩 色 图 片 ， 其 中 50 000 张 用 于 训练 、10 000 张 用 于 


测试 。 这 些 图 片 分 为 10 个 不 同 的 类 别 ， 每 类 包含 6 000 张 图 片 。 为 了 简化 计算 机 模型 的 任 
务 ， 并 降低 图 片 分 析 的 计算 负载 ， 该 数据 集中 每 张 图 片 的 规格 都 是 32 像 素 X32 像 素 '。 该 
数据 集中 的 示例 图 片 如 图 10.1 所 示 。 
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图 10.1 ”Cifar-10 数 据 集中 的 示例 图 片 


1 ”参考 https://www.cs.toronto.edu/~kriz/cifar.html。 
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在 对 图 片 数 据 进行 训练 时 ， 为 了 降低 网 络 对 图 片 动态 范围 变化 的 敏感 度 ， 一 般 会 对 
图 片 中 物体 的 位 置 、 亮 度 和 对 比 度 等 进行 调整 。 为 了 降低 输入 图 片 的 元 余 性 ， 提 高 计算 效 
率 ， 会 对 图 片 数 据 进行 标准 化 处 理 。 因 此 ， 对 图 片 数据 的 预 处 理 主要 包括 变化 亮度 、 对 比 
度 和 减 去 均值 等 操作 '。 


1. 原始 数据 的 获取 


从 数据 集中 读 取 图 片 并 将 相关 信息 转换 为 TFRecords 格 式 的 数据 ，TFRecords 数 据 中 包 
括 图 像 的 长 边 像素 、 宽 边 像素 、 颜 色 通 道 数 、 图 片 编码 、 图 片 对 应 的 分 类 标签 以 及 图 片 文 
件 ， 具 体 实 现 如 下 : 


01 def read_cifar10(filename_queue): 

02 class CIFAR10Record(object): 

03 pass 

04 result = CIFAR10Record() 

05 label bytes- 1 

06 # 图 片 属性 

07 result.height = 32 

08 result.width = 32 

09 result.depth=3 

10 image bytes = result.height * result.width * result.depth 

11 record bytes - label bytes * image bytes 

12 reader - tf.FixedLengthRecordReader(record bytes-record bytes) 

13 result.key, value = reader.read(filename queue) 

14 record bytes - tf.decode raw(value, tf.uint8) 

15 result.label = tf.cast( 

16 tf.strided. slice(record bytes, [0], [label bytes]), tf.int32) 

17 depth major tf.reshape( 

18 tf.strided slice(record bytes, [label bytes], [label bytes + image bytes]), 
[result.depth, result.height, result.width]) 

19 result.uintBimage = tf.transpose(depth major, [1 2, 0]) 

20 return result 


2. 输入 数据 的 处 理 


对 于 图 片 数据 ， 在 训练 前 要 统一 裁 前 为 24 像 素 X24 像 素 大 小 ， 裁 剪 中央 区 域 用 于 评估 ， 
随机 裁剪 用 于 训练 。 还 要 对 图 片 进行 数据 增 广 ， 包 括 对 图 像 进行 随机 的 左右 翻转 、 随 机 变 
换 图 像 的 亮度 ， 以 及 随机 变换 图 像 的 对 比 度 ， 最 后 对 图 像 进行 白化 操作 ， 具 体 实现 如 下 : 


01 def distorted_inputs(data_dir, batch_size): 

02 filenames = [os.path.join(data dir, "data batch 96d.bin' % i) for i in xrange(1, 6)] 
O3 forf in filenames: 

04  ifnottf.gfile.Exists(f): 

05 raise ValueError('Failed to find file: ' + f) 

06 filename queue = tf.train.string input producer(filenames) 

07 read input- read cifar1O(fiename queue) # 获 取 TFRecords 文 件 

08 reshaped image = tf.cast(read input.uint8image, tf.float32) 

09 IMAGE SIZE - 24 

10 height = IMAGE SIZE 


1 4 S-Ehttps://github.com/tensorflow/models/tree/master/tutorials/image/cifar10 
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11 width = IMAGE SIZE 
12 # 随 机 裁剪 
13 distorted image - tf.random crop(reshaped image, [height, width, 3]) 
14 # 随 机 翻转 
15 distorted image - tf.image.random flip left right(distorted image) 
16 # 随 机 变换 亮度 
17 distorted image - tf.image.random brightness(distorted image, max_delta=63) 
18 # 随 机 变换 对 比 度 
19 distorted image - tf.image.random contrast(distorted image, lower=0.2, upper=1.8) 
20 # 白 化 操作 
21 float image =tfimage.per_image_standardization(distorted_image) 
22 float image.set shape([height, width, 3]) 
23 read input.label.set shape([1]) 
24 min fraction of examples in queue = 0.4 
25 min queue examples = in(NUM EXAMPLES PER EPOCH FOR TRAIN * 
min. fraction of examples in queue) 
26 print ("Filing queue with %d CIFAR images before starting to train. ' 
"This will take a few minutes.' % min queue examples) 
27 return generate image and label batch(float image, read input.label, 
min queue examples, batch size, shuffle- True) 


通过 以 上 步骤 即 可 完成 数据 的 预 处 理 。 在 实际 的 运行 过 程 中 ， 从 磁盘 上 读 取 并 加 载 图 
像 后 ， 完 成 图 像 的 整个 变换 过 程 还 需要 花费 不 少 的 时 间 。 


[10.2.2 uses 


训练 模型 的 生成 需要 以 卷 积 神经 网 络 为 基础 ， 包 括 两 次 的 卷 积 层 、 池 化 层 以 及 抑制 层 
操作 ， 然 后 进行 全 连接 层 操 作 ， 最 后 通过 逻辑 分 类 层 softmax_linear 进 行 输出 。 

对 于 每 一 层 的 权重 ， 需 要 创建 权重 函数 。 为 了 防止 过 拟 合 ， 提 高 泛 化 能 力 ， 在 losses 
中 添加 了 L2 正 则 化 。 有 具体 实现 如 下 : 

01 def variable with weight decay(name, shape, stddev, wd): 

02 dtype = tf.float16 if FLAGS.use fp16 else tf.float32 

O3 var- variable on cpu( 

04 name, 

05 shape, 

06 tf.truncated normal initializer(stddev-stddev, dtype-dtype)) 

07 ifwdis not None: 

08 weight decay = tf.multiply(tf.nn.I2. loss(var), wd, name-'weight loss") 

09  tf.add to oollection(losses', weight decay) 

10 return var 


在 图 像 处 理 中 ， 采 用 卷 积 神经 网 络 分 别 进行 卷 积 操作 、 池 化 操作 以 及 神经 元 节点 抑制 
操作 。 在 卷 积 层 中 ， 输 出 的 结果 由 relu 函 数 进行 激活 。 在 池 化 层 中 ， 使 最 大 池 化 尺寸 和 步 
长 不 一 致 ， 以 增加 数据 的 丰富 性 。 最 后 在 抑制 层 中 ， 对 局 部 神经 元 的 活动 进行 抑制 ， 以 增 
强 整 个 模型 的 泛 化 能 力 。 具 体 实现 如 下 : 


01 #conv1 
02 with tf.variable scope('conv1") as scope: 


10 
11 
12 
13 


14 
15 


kernel- variable with weight decay('weights', 
shape=[5, 5, 3, 64], 
Stddev-5e-2, 
wd-0.0) 
conv = tf.nn.conv2d(images, kernel, [1, 1, 1, 1], padding-" SAME") 
biases = variable on cpu(biases', [64], tf.constant initializer(0.0)) 
pre. activation = tf.nn.bias add(conv, biases) 
conv1 - tf.nn.relu(pre activation, name-scope.name) 
. activation summary(conv1) 
# pool 
pool1 = tf.nn.max pool(conv1, ksize-[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding-'SAME', name-'pool1") 
# norm1 
norm1 = tf.nn.Im(pool, 4, bias=1.0, alpha-0.001 / 9.0, beta-0.75, name-'norm1") 


同 理 ， 进 行 第 二 次 卷 积 过 程 ， 具 体 实现 如 下 : 


01 
02 
03 
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# conv2 
with tf.variable scope('conv2") as scope: 
kernel = variable with weight decay('weights', 
shape=[5, 5, 64, 64], 
Stddev-5e-2, 
wd-0.0) 
conv = tf.nn.conv2d(normt1, kernel, [1, 1, 1, 1], padding='SAME') 
biases = variable on cpu(biases', [64], tf.constant initializer(0.1)) 
pre activation = tf.nn.bias add(conv, biases) 
conv2 - tf.nn.relu(pre activation, name-scope.name) 
. activation summary(conv2) 
3 norm2 
norme? = tf.nn.Irn(conv2, 4, bias=1.0, alpha-0.001 / 9.0, beta-0.75, name-'norm2") 
# pool2 
pool2 = tf.nn.max. pool(norm2, ksize=[1, 3, 3, 1], 
strides-[1, 2, 2, 1], padding-'SAME', name-'pool2" 


完成 卷 积 操作 后 ， 建 立 全 连接 层 。 
对 于 卷 积 操作 后 的 输出 结果 ， 首 先 使 用 tfreshape 函 数 将 样本 转换 为 一 维 向 量 ， 然 后 通 
过 全 连接 层 的 训练 ， 使 用 relu 激 活 函数 进行 非 线性 化 。 在 此 建立 两 层 的 全 连接 层 ， 有 具体 实 


现 如 下 : 


01 
02 


# local3 
with tf.variable scope('local3 as scope: 
reshape - tf.reshape(pool2, [FLAGS.batch size, -1]) 
dim = reshape.get shape()[1].value 
weights = variable with: weight decay(weights', shape-[dim, 384], 
Stddev-0.04, wd-0.004) 
biases = variable on cpu(biases', [384], tf.constant initializer(0.1)) 
local3 = tf.nn.relu(tf.matmul(reshape, weights) + biases, name-scope.name) 
activation summary(local3) 
# local4 
with tf.variable scope('ocal4") as scope: 
weights = variable with: weight decay(weights', shape-[384, 192], 


stddev=0.04, wd=0.004) 


12 biases = __variable_on_cpu(biases', [192], tf.constant initializer(0.1)) 
13 local = tf.nn.relu(tf.matmul(local3, weights) + biases, name-scope.name) 
14 activation summary(local4) 


最 后 通过 softmax_linear 层 进行 分 类 输出 ， 具 体 实现 如 下 : 


01 with tf.variable_scope('softmax_linear') as scope: 

02 weights = variable with weight decay(weights', [192, NUM CLASSES], 
Stddev-1/192.0, wd-0.0) 

O3  biases- variable on cpu(biases', [NUM CLASSES], 
tf.constant initializer(0.0)) 

04  softmax linear = tf.add(tf.matmul(local4, weights), biases, name-scope.name) 

05 . activation summary(softmax linear) 

06 return softmax linear 
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01 defloss(logits, labels): 

O2 labels = tf.cast(labels, tf.int64) 

03 cross entropy = tf.nn.sparse softmax cross entropy with logits( 
labels-labels, logits-logits, name-'cross entropy. per. example") 

04 cross entropy mean = tf.reduce mean(cross entropy, name-'cross entropy") 

05 tf.add to collection(losses', cross entropy mean) 

06 return tf.add n(tf.get collection('losses'), name-'total loss") 


10.2.3 


上 述 步 又 完成 了 数据 的 输入 ， 以 及 训练 模型 和 损失 函数 的 定义 ， 接 下 来 依次 调用 方法 
进行 模型 的 训练 。 具 体 实现 如 下 : 


01 deftrain(): 

02 with tf.Graph().as. default(): 

O3 global step = tf.train.get or create global step() 
04 with tf.device('/cpu:0"): 

05 images, labels = cifar10.distorted inputs() 
O6  logits = cifar1O.inference(images) 

07 loss = cifar10.loss(logits, labels) 

08 train op = cifar10.train(loss, global step) 

09 class LoggerHook(tf.train.SessionRunHook): 
10 def begin(self): 

11 self. step = -1 

12 self._start_time = time.time() 

13 def before_run(self, run_context): 

14 self._step += 1 

15 return tf.train.SessionRunArgs(loss) 

16 def after. run(self, run context, run values): 
17 if self. step % FLAGS.log frequency == 0: 


18 current time - time.time() 
19 duration = current time - self. start time 
20 self. start time = current time 
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21 loss value = run values.results 

22 examples per sec = FLAGS.log frequency * FLAGS.batch size / duration 
23 Sec per batch = float(duration / FLAGS.log. frequency) 

24 format. str = (96s: step 96d, loss = 96.2f (96.1f examples/sec; 96.3f ' 'sec/batch)") 
25 print (format. str 96 (datetime.now(), self. step, loss value, 


examples per sec,sec per batch)) 
26 with tf.train.MonitoredTrainingSession( 
27 checkpoint. dirzFLAGS.train dir, 
28 hooks^[tf.train.StopAtStepHook(last step-FLAGS.max steps), 
29 tf.train. NanTensorHook(loss), 
30 —LoggerHook()], 
31 config-tf.ConfigProto( 
32 log device placement-FLAGS.log device placement)) as mon. sess: 
33 while not mon. sess.should stop(): 
34 mon sess.run(train op) 


KEX sces 

完成 模型 的 训练 后 ， 使 用 测试 数据 评估 模型 。 在 评估 时 ， 使 用 的 数据 不 再 经 过 翻转 、 
调整 亮度 和 对 比 度 等 操作 ， 而 是 直接 从 测试 数据 集中 转换 为 TFRecords 格 式 的 数据 。 获 取 
测试 数据 的 具体 实现 如 下 : 


01 def inputs(eval_data, data_dir, batch_size): 
02 ifnoteval data: 
03 filenames = [os.path.join(data dir, 'data batch 96d.bin' 96 i) for i in xrange(1, 6)] 
04 num examples per epoch = NUM EXAMPLES PER EPOCH FOR. TRAIN 
05 else: 
06 filenames = [os.path.join(data dir, test batch.bin")] 
07 num examples per epoch NUM EXAMPLES PER EPOCH FOR EVAL 
08 forf in filenames: 
09  ifnottf.gfile.Exists(f): 
10 raise ValueError('Failed to find file: ' + f) 
11 filename queue = tf.train.string input producer(filenames) 
12 read input = read cifartO(filename queue) 
13 reshaped image = tf.cast(read input.uint8image, tf.float32) 
14 height = IMAGE SIZE 
15 width IMAGE SIZE 
16 resized image = tf.image.resize image with crop or pad(reshaped image, 
height, width) 
17 float image = tf.image.per image standardization(resized image) 
18 float image.set shape([height, width, 3]) 
19 read input.label.set shape((1]) 
20 min fraction of examples in queue = 0.4 
21 min queue examples = int(num examples per epoch * 
min. fraction of examples in queue) 
22 return generate image and label batch(float image, read input.label, 
min queue examples, batch. size, shuffle-False) 


对 于 正式 的 评估 训练 ， 是 将 测试 数据 输入 训练 好 的 模型 中 ， 获 得 最 终 的 分 类 结果 并 与 


真实 分 类 进行 对 比 。 具 体 实现 如 下 : 


01 
02 
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def evaluate(): 
with tf.Graph().as default() as g: 
eval data = FLAGS.eval data == 'test 
images, labels = cifar10.inputs(eval data-eval data) 
logits = cifar10.inference(images) 
top k op -tf.nn.in top k(logits, labels, 1) 
variable averages = tf.train.ExponentialMovingAverage( 
cifar1O.MOVING AVERAGE. DECAY) 
variables to restore = variable averages.variables to restore() 
saver = tf.train.Saver(variables to restore) 
summary. op = tf.summary.merge all() 
summary. writer = tf.summary.FileWriter(FLAGS.eval dir, g) 
while True: 
eval once(saver, summary. writer, top k op, summary. op) 
if FLAGS.run once: 
break 
time.sleep(FLAGS.eval interval secs) 
def eval once(saver, summary writer, top Kk op, summary. op): 
with tf.Session() as sess: 
ckpt = tf.train.get checkpoint. state(FLAGS.checkpoint dir) 
if ckpt and ckpt.model checkpoint. path: 
saver.restore(sess, ckpt.model checkpoint path) 
global step = ckpt.model checkpoint path.split(/)|-1].split(-"(-1] 
else: 
print('No checkpoint file found') 
return 
coord = tf.train.Coordinator() 
try: 
threads = [] 
for qr in tf.get. collection(tf.GraphKeys.QUEUE. RUNNERS): 
threads.extend(qr.create threads(sess, coord-coord, daemon-True, start-True)) 
num iter  int(math.ceil(FLAGS.num examples / FLAGS.batch size)) 
true count = 0 # Counts the number of correct predictions. 
total sample count = num iter * FLAGS.batch size 
step- 0 
while step < num iter and not coord.should. stop(): 
predictions = sess.run([top k op]) 
true count += np.sum(predictions) 
step *- 1 
precision 7 true count / total sample count 
print('96s: precision @ 1 = 96.3f 96 (datetime.now(), precision)) 
summary - tf.Summary() 
summary.ParseFromString(sess.run(summary op)) 
summary.value.add(tag- Precision @ 1', simple value-precision) 
summary. writer.add summary(summary, global step) 
except Exception as e: # pylint: disable-broad-except 
coord.request stop(e) 
coord.request stop() 
coord.join(threads, stop grace period secs-10) 
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通过 本 节 的 练习 ， 我 们 掌握 了 最 基础 的 图 像 物 体 识别 技术 。 


KOY 图 片 验证 码 识别 D 


在 日 常 的 计算 机 应 用 中 经 常会 遇 到 需要 输入 验证 码 的 情况 。 使 用 验证 码 技术 是 为 了 阻 
止 程序 自动 完成 登录 、 注 册 等 验证 性 工作 ， 其 中 最 传统 的 方式 就 是 字符 型 验证 码 。 本 节 将 
机 器 学 习 的 图 像 处 理 技术 实现 对 验证 码 的 自动 识别 。 


E 


使 用 


10.3.1 验证 码 的 生成 


们 使 


通过 Python 提供 的 captcha 库 可 以 便捷 地 生成 验证 码 。 


在 


TensorFlow 开 发 环境 中 ， 可 以 使 用 如 下 命令 来 安装 captcha 库 : 


pip install captcha 


安 


MI 管理 员 : Anaconda Prompt 


对 


装 过 程 如 图 10.2 所 示 。 


Msers\hdministratorNhnaconda3》 sers\hdministrator>activuate tensorflowCPUES 


m 


sorf louCPl 
ecting captcha 
Downloading https 
2134afie6 J8Fb88d 


图 10.2 captcha 库 的 安装 
于 验证 码 的 内 容 ， 我 们 采用 数字 和 英文 字符 相 组 合 的 形式 。 对 于 验证 码 的 长 度 ， 我 


4 个 字符 。 所 以 ， 对 于 随机 生成 验证 码 的 文本 内 容 ， 具 体 实现 如 下 : 


# 验证 码 中 的 字符 
number = ['0',1" 
alphabet = ['a'/b fg T m'//n''o*'p''q'/r's "tu v'w'"x''y'/z'] 
ALPHABET = ['A'/B'/C'D'/E'F''G''HSIJIKUEMSINIST'OSIPIIQSRSISSITSUCSVSW'PC, Y" 
# 验 证 码 的 长 度 为 4 个 字符 
def random_captcha_text(char_set=number+alphabet+ALPHABET, captcha size-4): 
# 指 定 使 用 的 验证 码 内 容 列 表 和 长 度 ， 返 回 随 机 的 验证 码 文本 " 
captcha text = [] 
foriin range(captcha size) 
c - random.choice(char. set) 
captcha text.append(c) 
return captcha text 


captcha 库 ， 可 根据 随机 产生 的 文本 内 容 生成 对 应 的 验证 码 。 将 验证 码 图 片 分 别 保 
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NETT 


存 为 训练 数据 集 和 测试 数据 集 。 具 体 实现 如 下 : 


01 # 生 成 字符 对 应 的 验证 码 图 片 
02 defgen captcha text and image(): 


03 image = ImageCaptcha() # 导 入 验证 码 包 ， 生 成 一 张 空白 图 
04 captcha text = random captcha text() 

05 captcha text = "join(captcha text) 

06 captcha = image.generate(captcha text) 

07 captcha image = Image.open(captcha) 

08 captcha image = np.array(captcha image) 

09 return captcha text, captcha image 

10 # 生 成 训练 集 验 证 码 图 片 

11 if name --' main * 

12 。 # 保 存 路 径 


13 path -'/trainimage' PIIRE 

14 s path-'/validlImage'  # 测 试 集 

15  foriin range(10000): 

16 text, image = gen captcha text and image() 
17 fullPath = os.path.join(path, text + ".jpg") 

18 cv2.imwrite(fullPath, image) 

19 print ("(0)/10000" format(i)) 

20 print ("Done!") 


运行 上 述 代码 ， 生 成 随机 的 验证 码 ， 实 现 效果 如 图 10.3 所 示 。 


tale Re) AIS] MN] BAE] RE 
| EE 
mg gie: AE Tuc x " ur à 


图 10.3 生成 的 验证 码 
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前 面 提 到 过 ， 进 行 自然 语言 处 理 的 第 一 步 就 是 对 自然 语言 符号 进行 编码 。 在 本 节 中 ， 
对 于 验证 码 的 识别 也 是 一 样 的 ， 需 要 先 对 识别 的 验证 码 进行 转 码 处 理 。 由 于 验证 码 仅 仅 包 
含 数字 和 字母 ， 而 且 都 是 四 位 ， 因 此 在 这 里 采用 抢 阵 编码 。 

例如 ， 每 个 验证 码 中 有 4 个 字符 ， 这 些 字符 可 从 0~9 十 个 数字 中 选择 。 将 验证 码 的 文 
本 信息 转换 为 一 维 数组 的 编码 ， 则 这 个 一 维 数组 可 以 有 4X10 列 ， 每 10 列 表示 一 个 字符 。 
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字符 出 现 的 对 应 位 置 标识 为 “1”， 其 他 位 置 标识 为 “0”。 按 照 此 规则 ，“4352” 可 以 
表示 为 : 


[0000100000 
0001000000 
0000010000 
0010000000] 


此 为 一 维 数组 ， 为 了 便于 查看 ， 以 每 10 列 进行 换行 排版 。 
按照 此 规则 ， 对 于 将 数字 和 字母 组 成 的 验证 码 转 为 编码 ， 具 体 实现 如 下 : 


01 # 文 本 转向 量 

02 char. set = number + alphabet + ALPHABET + [' '] 3 如 果 验 证 码 的 长 度 小 于 4， 则 用 '_' 补 齐 
03 CHAR_SET_LEN = len(char. set) 3 获取 表示 一 个 字符 的 长 度 
04 deftext2vec(text): 

05 text len = len(text) 

06 if text_len > MAX. CAPTCHA: 

07 raise ValueError( 验 证 码 最 长 4 个 字符 ) 

08 vector = np.zeros(MAX_CAPTCHA*CHAR_SET_LEN) # 初 始 化 
09 def char2pos(c): 

10 ifc ==: 

11 k-62 

12 return k 

13 k = ord(c)-48 

14 ifk>9: 

15 k= ord(c) - 55 

16 if k >35: 

TE k 7 ord(c) - 61 

18 ifk > 61: 

19 raise ValueError('No Map") 
20 return k 

21 for i, cin enumerate(text): 

22 idx =i* CHAR, SET. LEN + char2pos(c) 

23 vector(idx] = 1 

24 return vector 


同 理 ， 对 于 将 编码 转 为 由 数字 和 字母 组 成 的 验证 码 文本 ， 具 体 实现 如 下 : 


01 # 向 量 转 回 文本 
02 def vec2text(vec): 


03 char. pos = vec.nonzero()[0] 

04 text-[] 

05 for i, cin enumerate(char. pos): 

06 char at pos = isc/63 

07 char idx = c 96 CHAR. SET. LEN 

08 if char idx < 10: 

09 char. code = char. idx + ord('0") 

10 elif char. idx < 36: 

11 char. code = char. idx - 10 + ord(A) 
12 elif char. idx < 62: 

从 char. code = char. idx- 36 + ord(a) 
14 elif char. idx == 62: 


15 
16 
17 
18 
19 


char. code=ord( ") 
else: 
raise ValueError('error') 
text.append(chr(char code)) 
return " join(text) 


EDEE esses 


训练 模型 的 生成 以 卷 积 神经 网 络 为 基础 ， 进 行 三 次 的 卷 积 层 、 池 化 层 以 及 抑制 层 操 
作 ， 然 后 进行 全 连接 层 操作 ， 最 后 通过 输出 层 进行 输出 。 对 于 损失 函数 的 选取 ， 使 用 最 常 
Figs SURE TEE. HEKA TF: 

01 defcrack captcha cnn(w. alpha-0.01, b alpha-0.1): 


02 
03 
04 
05 
06 
07 


3 将 占 位 符 转换 为 按照 图 片 给 定 的 新 样式 

x = tf.reshape(X, shape=[-1, IMAGE_HEIGHT, IMAGE WIDTH, 1]) 

4 第 一 次 

W. c1 = tf. Variable(w. alpha*tf.random normal([3, 3, 1, 32])) 

b c1 = tf.Variable(b alpha"*tf.random normal([32])) 

conv = tf.nn.relu(tf.nn.bias add(tf.nn.conv2d(x, w. c1, strides=[1, 1, 1, 1], 
padding-'SAME?, b. c1)) 

conv? = tf.nn.max pool(conv1, ksize=[1, 2, 2, 1], strides-[1, 2, 2, 1], padding-'SAME") 
conv = tf.nn.dropout(conv1, keep prob) 

# 第 二 ; 

w_c2 = tf.Variable(w_alpha*tf.random_normal([3, 3, 32, 64])) 

b c2 = tf.Variable(b alpha*tf.random normal([64])) 

conv2 = tf.nn.relu(tf.nn.bias add(tf.nn.conv2d(conv1, w. c2, strides=[1, 1, 1, 1], 
padding='SAME'), b. c2)) 

conv2 = tf.nn.max pool(conv2, ksize=[1, 2, 2, 1], strides-[1, 2, 2, 1], padding-'SAME") 
conv2 = tf.nn.dropout(conv2, keep prob) 

# 第 三 次 

w. c3 = tf.Variable(w. alpha*tf.random normal([3, 3, 64, 64])) 

b c3 = tf.Variable(b alpha*tf.random normal([64])) 

conv3 = tf.nn.relu(tf.nn.bias add(tf.nn.conv2d(conv2, w. c3, strides=[1, 1, 1, 1], 
padding-'SAME?, b. c3)) 

conv3 = tf.nn.max pool(conv3, ksize=[1, 2, 2, 1], strides-[1, 2, 2, 1], padding-'SAME") 
conv3 = tf.nn.dropout(conv3, keep prob) 

# 全 连接 层 

w d = tf.Variable(w alpha*tf.random normal((B*20*64, 1024])) 

b d-tf.Variable(b alpha*tf.random normal((1024])) 

dense = tf.reshape(conv8, [-1, w d.get shape().as list()[0]]) 

dense = tf.nn.relu(tf.ada(tf.matmul(dense, w d), b. d)) 

dense = tf.nn.dropout(dense, keep. prob) 

# 输 出 层 

w out = tf. Variable(w alpha*tf.random normal([1024, 

MAX. CAPTCHA*CHAR SET LEN]) 

b out = tf.Variable(b alpha*tf.random normal((MAX CAPTCHA*CHAR, SET LEN])) 
out = tf.add(tf.matmul(dense, w. out), b. out) 

return out 

loss = tf.reduce mean(tf.nn.sigmoid cross entropy with logits(logitszoutput, labels=Y)) 
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[10.3.4 ss 
完成 训练 模型 和 损失 函数 的 定义 后 ， 接 下 来 依次 调用 方法 进行 模型 的 训练 。 我 们 已 经 


成 功 使 用 Python 提供 的 captcha 库 完成 了 验证 码 的 随机 生成 。 在 训练 时 ， 每 次 都 会 随机 生成 
验证 码 ， 然 后 进行 训练 。 对 于 每 一 次 训练 的 数据 ， 具 体 实现 如 下 : 


01 # 生 成 验证 码 图 像 

02 def wrap_gen_captcha_text_and_image(): 

03 "获取 一 张 图 ， 判 断 是 否 符合 (60,160,3) 规 格 "” 

04 while True: 

05 text, image = gen captcha text and image() 

06 if image.shape == (60, 160, 3):# 此 部 分 应 该 与 开头 部 分 图 片 宽 高 吻合 
07 return text, image 

08 # 生 成 训练 batch 

09 def get_next_batch(batch_size=128): 

10 batch_x = np.zeros([batch_size, IMAGE HEIGHT*IMAGE WIDTH]) 
11 batch_y = np.zeros([batch_size, MAX_CAPTCHA*CHAR_SET_LEN]) 
12 foriin range(batch size): 

13 text, image = wrap. gen captcha text and image() 

14 image = convert2gray(image) 

15 # 将 图 片 数组 一 维 化 

16 batch_x[i,:] = image.flatten() / 255 

17 batch_yli,:] = text2vec(text) 

18 return batch_x, batch_y 


明确 了 训练 的 数据 后 ， 使 用 定义 的 模型 进行 正式 训练 ， 具 体 实现 如 下 : 


01 X = tf.placeholder(tf.float32, [None, IMAGE. HEIGHT*IMAGE. WIDTH]) 
02 Y = tf.placeholder(tf.float32, [None, MAX CAPTCHA*CHAR. SET LENI) 
03 keep prob = tf.placeholder(tf.float32) # dropout 


04 st 训练 
05 deftrain crack captcha cnn(): 
06 output = crack. captcha cnn() AER FUIL RH 
07 loss = tf.reduce mean(tf.nn.sigmoid cross entropy with logits(logitszoutput, labels Y)) 
08 optimizer = tf.train.AdamOptimizer(learning rate-0.001).minimize(loss) 
09 predict = tf.reshape(output, [-1, MAX CAPTCHA, CHAR. SET LENI) 
10 max. idx p = tf.argmax(predict, 2) 
11 max idx | tf.argmax(tf.reshape(Y, [-1, MAX CAPTCHA, CHAR SET LENJ), 2) 
12 correct pred = tf.equal(max idx p, max idx 1) 
18 accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32)) 
14 saver = tf.train.Saver() # 保 存 训练 模型 
15 with tf.Session() as sess: 
16 sess.run(tf.global variables initializer()) 
17 step - 0 
18 while True: 
19 batch x, batch y = get next batch(64) 
20 .,loss -sess.run([optimizer, loss], feed dict-(X: batch. x, 
Y: batch. y, keep. prob: 0.75]) 
21 print(step, loss ) 
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# 8100 step 计 算 一 次 准确 率 

if step % 100 == 0: 
batch x test, batch. y test = get next batch(100) 
acc = sess.run(accuracy, feed dict-(X: batch x test, Y: 
batch y test, 


print(step, acc) 

# 如 果 准 确 率 大 于 50%, 就 保存 模型 ,完成 训练 

ifacc > 0.5: 
saver.save(sess, "crack capcha.model", global 
step=step) 
break 


step +=1 


运行 以 上 代码 ， 对 模型 进行 训练 。 由 于 训练 的 时 间 比 较 长 ， 因 此 选择 在 准确 率 大 于 
50% 的 情况 下 结束 训练 。 如 果 拥有 足够 的 计算 能 力 和 训练 时 间 ， 建 议 可 以 调 高 准确 率 ， 甚 
至 达到 95% 以 上 。 


[10.3.5 c 


至 此 ， 完 成 了 模型 的 训练 。 对 于 模型 的 评估 ， 同 样 随 机 地 生成 一 个 验证 码 ， 使 用 模型 
进行 预测 ， 查 看 预测 的 结果 。 具 体 实现 如 下 : 
01 def crack_captcha(captcha_image): 


02 
03 
04 
05 


output = crack_captcha_cnn() 
saver = tf.train.Saver() 
with tf.Session() as sess: 
saver.restore(sess, tftrain.latest_checkpoint(.)) 
predict = tf.argmax(tf.reshape(output, [-1, MAX CAPTCHA, CHAR_SET_ 
LEN] 2) 
text list  sess.run(predict, feed dict-(X: [captcha image], keep prob: 1)) 
text = text. list[O].tolist() 
vector = np.zeros(MAX CAPTCHA*CHAR SET LEN) 
iz0 
fornin text: 
vector*CHAR SET LEN * n]7 1 
i+=1 
retum vec2text(vector) 
if name --' main * 
text, image = gen. captcha text and image() # 获 取 随 机 验证 码 
image = convert2gray(image) # 对 验证 码 进行 灰 度 处 理 
image = image.flatten() / 255 # 将 图 片 一 维 化 
predict_text = crack_captcha(image) AJRA 
print(" IEH: () 预测 : ()".format(text, predict_text)) 


运行 以 上 代码 ， 对 随机 产生 的 验证 码 进行 预测 。 多 次 运行 该 评估 方法 ， 结 果 如 下 : 


正确 : [B9 2 0] 预 则 : [8920] 
正确 : [19 10] 预测 : [19 7 O] 
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由 于 训练 时 保存 的 模型 准确 率 并 不 高 ， 因 此 测试 时 的 准确 率 也 不 高 。 
继续 学 习 ， 那 么 测试 中 的 表现 会 非常 不 错 。 


oe 


前 面 介绍 了 图 像 物体 识别 ， 在 本 节 中 将 通过 谷歌 开源 的 一 套 智能 物体 检测 系统 来 介绍 
图 像 物体 检测 的 实现 。 


[10.4.1 物体 检测 系统 


物体 检测 一 直 是 计算 机 视觉 领域 的 一 个 关键 且 基 础 的 研究 方向 。 谷 歌 开源 了 其 在 
TensorFlow 上 实现 的 物体 检测 (Object Detectiom) 系 统 :， 并 提供 了 物体 检测 的 API 接 口 ， 在 该 
接口 中 实现 了 多 种 网 络 结构 的 预 训练 方式 ， 主 要 包括 SSD+mobilenet、SSD+inception_v2、 
R-FCN+resnet101、faster RCNN+resnet101 和 faster RCNN+inception+resnet101 等 。 

这 些 算法 模型 本 身 使 用 COCO 数 据 集 进行 训练 。COCO 数 据 集 在 图 像 处 理 领 域 是 一 个 
非常 常用 的 数据 集 ， 由 微软 发 布 ， 提 供 了 图 片 以 及 物体 分 割 、 图 像 语 义 文本 描述 等 信息 ， 
用 于 物体 检测 、 图 像 分 割 和 语义 描述 等 训练 。 

谷歌 采用 各 种 算法 对 COCO 数 据 集 的 计算 进行 测试 :， 在 计算 所 需 的 时 间 、 结 果 精 度 以 
及 输出 上 进行 了 对 比 ， 结 果 如 表 10.1 所 示 。 

表 10.1 COCO 数 据 集 在 各 种 算法 下 的 对 比 情 况 


神经 网 络 模型 名 称 
ssd mobilenet vl coco 


如 果 能 对 训练 集 


ssd mobilenet v2 coco 


ssdlite mobilenet v2 coco 
ssd inception v2 coco 


faster rcnn inception v2 coco 


faster rcnn resnet5O0 coco 


faster rcnn resnet50 lowproposals coco 


rfcn resnetl01 coco 


faster rcnn resnetl01 coco 
faster rcnn resnetl01 lowproposals coco 


faster rcnn inception resnet v2 atrous coco 


faster rcnn inception resnet v2 atrous - 


lowproposals coco 


faster rcnn nas 


1 S Éhttps://github.com/tensorflow/models/tree/master/research/object detection/. 


2  https;//github.com/TensorFlow/models/blob/master/research/object detection/g3doc/detection model - 
zoo.md. 
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神经 网 络 模型 名 称 
faster rcnn_nas_ lowproposals coco 


mask rcnn inception resnet v2 atrous coco 


mask rcnn inception v2 coco 


mask rcnn resnetlO0l atrous coco 


mask rcnn resnet5O atrous coco 


物体 检测 系统 依赖 于 其 他 相关 的 库 ， 包 括 Pillow、lxml、tf Slim. Jupyter Notebook 和 
matplotlib 等 。 另 外 ， 还 需要 使 用 protobuf 库 来 配置 模型 和 训练 参数 。 完 成 相关 库 的 下 载 以 
及 编译 完 protobuf 库 之 后 ， 将 models 和 slim 框 架 加 入 环境 变量 中 。 

最 后 ， 运 行 model_builder_test， 测 试 是 否 配置 成 功 ， 语 句 如 下 : 


python object_detection/builders/model_builder_test.py 


[10.4.2 物体 检测 系统 实 中 


我 们 已 经 了 解 了 谷歌 的 开源 模型 。 接 下 来 将 使 用 谷歌 的 物体 检测 API 实 现 一 个 简单 的 
物体 检测 系统 。 


1. 导入 库 文件 和 工具 


在 使 用 物体 检测 API 时 ， 需 要 使 用 相关 的 库 包 ， 以 及 用 于 物体 检测 的 具体 方法 ， 需 要 
导入 库 包 和 载 入 函数 ， 具 体 实 现 如 下 : 


01 import numpy as np 

02 import os 

03 import six.moves.urllib as urllib 

04 import tarfile 

05 import TensorFlow as tf 

06 import matplotlib 

07 matplotlib.use('Agg") 

08 from collections import defaultdict 
09 from io import StringlO 

10 from matplotlib import pyplot as plt 
11 from PIL import Image 

12 from utils import label map util 

13 from utils import visualization utils as vis util 


2. 下 载 模型 

物体 检测 系统 已 在 COCO 数 据 集 上 训练 完成 了 相关 模型 ， 我 们 只 需要 选择 对 应 的 模型 
下 载 并 加 载 即 可 。 由 于 SSD+mobilenet 方 法 较 快 ， 因 此 选择 该 模型 进行 下 载 并 使 用 。 有 具体 
实现 如 下 : 


01 4 选择 模型 
02 MODEL_NAME = 'ssd mobilenet v1 coco 11 06 2017' 
03 MODEL. FILE = MODEL. NAME + '.tar.gz' 


N 
x 
a 


| 


04 DOWNLOAD BASE = 'http;//download.TensorFlow.org/models/object detection/" 
05 PATH TO CKPT = MODEL. NAME + "/frozen inference graph.pb' 

06 PATH TO LABELS = os.path.join('data', 'mscoco label map.pbtxt") 

07 NUM CLASSES - 90 

08 £TSSES 

09 if not os.path.exists(PATH TO CKPT): 

10  print('Downloading model... (This may take over 5 minutes)" 

11 opener = urllib.request. URLopener() 

12  opener.retrieve(DOWNLOAD BASE + MODEL. FILE, MODEL. FILE) 
13  print(Extracting...") 

14 tar file = tarfile.open(MODEL. FILE) 

15  forfileintar file.getmembers(): 

16 file name = os.path.basenamef(file.name) 

17 if'frozen inference graph.pb' in file name: 

18 tar. file.extract(file, os.getcwd()) 

19 else: 

20  print('Model already downloaded." 


3. 加 载 模型 


完成 模型 的 下 载 后， 对 模型 中 的 pb 文件 进行 读 取 和 加 载 ， 具 体 实现 如 下 : 


01 sons 

02 print(Loading model...) 

03 detection graph = tf.Graph() 

04 with detection graph.as default(): 

05 od graph def- tf.GraphDef() 

O6 with tf.gfile.GFile(PATH TO. CKPT, 'rb') as fid: 

07 serialized graph - fid.read() 

08 od graph def.ParseFromString(serialized graph) 

09 tfimport graph def(od graph def, name-") 

10 #0 载 标 签 表 

11 print(Loading label map...') 

12 label map = label map utilload labelmap(PATH TO LABELS) 

13 categories = label map. util.convert label map to categories(label map, 
max num classes-NUM CLASSES, use display name-True) 

14 category index = label map util.create category index(categories) 


4. 分 析 图 像 


完成 模型 的 下 载 和 加 载 后 ， 使 用 模型 对 文件 进行 检测 ， 具 体 实现 如 下 : 


01 TEST IMAGE. PATH = 'test images/test.jpg' 

02 IMAGE. SIZE - (12, 8) # 输 出 文件 的 大 小 
03 print(Detecting...") 

04 with detection graph.as default(): 

05 with tt.Session(graph-detection graph) as sess: 

06  print(TEST IMAGE PATH) 

07  image-Image.open(TEST IMAGE PATH) 

08 image np load image into numpy array(image) 

09 image np expanded = np.expand dims(image np, axis=0) 

10 image tensor = detection graph.get tensor by name('image tensor:0) 

11 boxes = detection graph.get tensor by name(detection boxes:0") # 检 测 物 体 框 


和 


12 scores = detection graph.get tensor by name('detection scores:0) ”# 检 测 物 体 可 信和 度 
13 classes = detection graph.get tensor by name('detection classes:0 # 检 测 物 体 类 型 
14 num detections = detection graph.get tensor. by name('num detections:0") 
15 (boxes, scores, classes, num detections) = sess.run( 
[boxes, scores, classes, num detections], 
feed dict-(image tensor: image np expanded]) 
16  print(scores) 
17  print(classes) 
18  print(category index) 
19 vis util.visualize boxes and labels on image. array( 
image np, 
np.squeeze(boxes), 
np.squeeze(classes).astype(np.int32), 
np.squeeze(scores), 
category index, 
use normalized coordinates-True, 
line thickness-8) 
20  print(TEST IMAGE. PATH.split(."[0]*" labeled.jpg") 
21  plt.figure(figsize-IMAGE SIZE, dpi-300) 
22  pltimshow(image np) 
23  plt.savefig(TEST IMAGE. PATH.split(."(0] + ' labeled.jpg") 


运行 以 上 代码 ， 实 现 对 图 片 中 物体 的 检测 ， 如 图 10.4 所 示 。 


图 10.4 物体 检测 


从 中 可 以 看 出 ，SSD+mobilenet 方 法 虽然 较 快 ， 但 是 准确 率 较 低 ， 存 在 错误 标注 和 遗 
漏 小 物体 的 情况 。 


在 前 面 章节 中 ， 我 们 使 用 机 器 学 习 实 现 了 对 图 像 中 物体 的 识别 和 检测 ， 也 介绍 了 自然 
语言 文本 处 理 。 将 图 像 识别 与 自然 语言 相 结 合 的 一 种 处 理 场景 就 是 看 图 说 话 。 所 谓 “看 图 
说 话 ”， 就 是 通过 输入 一 张 图 片 ， 让 计算 机 使 用 自然 语言 描述 图 片 的 内 容 。 


zu 
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本 节 将 以 TensorFlow 的 官方 模型 ' 为 例 ， 讲 解 如 何 训练 看 图 说 话 模型 。 


10.5.1 看 图 说 话 后 理 


看 图 说 话 ， 就 是 根据 图 像 给 出 一 段 文 字 描述 ， 可 以 理解 为 将 图 像 信息 翻译 为 文本 信息 
的 过 程 ， 类 似 于 自然 语言 文本 处 理 中 提 到 的 编码 器 -解码 器 (Seq2Seq) 模 型 。 

整体 来 说 ， 采 取 的 依然 是 编码 器 -解码 器 框架 。 先 将 图 像 编码 为 固定 的 中 间 矢 量 ， 然 
后 解码 为 自然 语言 的 描述 。 对 于 图 像 的 识别 ， 采 用 Inception V3 图 像 识别 模型 。 对 于 自然 
语言 的 描述 ， 采 用 LSTM 网 络 。 整 体 框架 如 图 10.5 所 示 。 


图 10.5 看 图 说 话 模型 的 整体 框架 


[10.5.2 看 图 说 活 模型 的 构建 


整个 看 图 说 明 可 以 分 为 对 输入 图 像 的 预 处 理 、 图 像 编 码 、Inception V3 图 像 识别 、 
LSTM 模 型 解码 、 文 本 编码 等 过 程 。 具 体 实现 如 下 : 


01 def build(self): 


02  selfbuild inputs() # 构 建 输入 数据 

03  selfbuild image embeddings() 。” # 构 建 图 像 编码 

04  selfbuild seq embeddings() # 构 建 输入 序列 编码 

05  self.build model() # 构 建 完整 模型 

06  selfsetup inception initializer() ^ s$XAInception V3 模型 
07  selfsetup global step() 失忆 录 全 局 和 迭代 次 数 


对 于 整体 模型 的 构建 ， 重 点 需要 完成 LSTM 解 码 器 神经 网 络 的 定义 ， 有 具体 实现 如 下 : 


01 defbuild model(self): 
02  Istm cell- tf.contrib.rmn.BasicLSTMCell( 

num units-self.config.num Istm units, state is tuple- True) 
03  ifself mode == "train": HIRE 


1 2-5https;//github.com/TensorFlow/models/tree/master/research/im2txt.. 


BE 


04  Istm cell = tf.contrib.rnn.DropoutWrapper( 
Istm cell, input keep. prob-self.config.lstm dropout keep. prob, 
output keep prob-self.config.lstm dropout keep prob) 
05 with tf.variable scope("Istm" initializer-self.initializer) as lstm scope: 
06 zero state - Istm cell.zero state( 
batch size-self. image embeddings.get shape()[0], dtype-tf.float32) 
_, Initial state = Istm cell(self.image embeddings, zero state) 
07 Istm scope.reuse variables() 
08 if self. mode == "inference": 
09 tf.concat(axis-1, values-initial state, name-"initial state") 
10 state feed = tf.placeholder(dtype-tf.float32, 
shape-[None, sum(Istm cell.state size)], 
name-'state feed") 
11 state tuple = tf.split(value-state feed, num_or_size_splits=2, axis=1) 
12 Istm. outputs, state tuple = Istm cell( 
inputs-tf.squeeze(self.seq embeddings, axis-[1]), state-state tuple) 
13 tf.concat(axisz1, values-state tuple, name-"state") 
14 else: 
15 sequence length = tf.reduce sum(self.input mask, 1) 
16 Istm outputs, _ = tf.nn.dynamic rnn(cell-Istm cell, 
inputs-self.seq embeddings, 
sequence length-sequence length, 
initial state-initial state, 
dtype-tf.float32, 
Scope-lstm scope) 
17  Istm outputs = tf.reshape(Istm outputs, [-1, Istm cell.output size]) 
18 with tf.variable scope('logits") as logits scope: 
19 logits = tf.contrib.layers.fully connected( 
inputs-lstm outputs, num outputs-self.config.vocab size, 
activation fn-None, weights initializer-self initializer, 
Scope-logits scope) 
20  ifself. mode == "inference": 
21 tf.nn.softmax(logits, name-"softmax") 
22 else: 
23 targets = tf.reshape(self.target segs, [-1]) 
24 weights = tf.to float(tf.reshape(self.input mask, [-1])) 
25 losses 7 tf.nn.sparse softmax cross entropy with logits(labels-targets, 
logits-logits) 
26 batch. loss = tf.div(tf.reduce sum(tf.multiply(losses, weights)), 
tf.reduce sum(weights), name-"batch loss") 
27 tflosses.add loss(batch loss) 
28 total loss = tf.losses.get total loss() 
29 tf.summary.scalar("losses/batch loss", batch loss) 
30 tf.summary.scalar("losses/total loss", total loss) 
31 for var in tf.trainable variables(): 
32 tf.summary.histogram("parameters/" + var.op.name, var) 
33 self.total loss = total loss 
34 self.target cross entropy losses = losses 
35 self.target_cross_entropy_loss_weights = weights 


对 于 Inception V3， 直 接 使 用 预 训 练 好 的 模型 ， 采 用 TensorFlow-Slim 图 像 分 类 库 中 已 
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经 实现 的 模型 ， 具 体 实现 如 下 : 


01 defsetup inception initializer(self): 

02  ifself.mode !- "inference": 

03 saver = tf.train.Saver(self.inception_variables) 

04 def restore_fn(sess): 

05 tf.logging.info("Restoring Inception variables from checkpoint file %s", 
self.config.inception checkpoint file) 

06 saver.restore(sess, self.config.inception checkpoint file) 

07 self.init fn = restore fn 


图 说 话 模型 的 训练 


完成 了 看 图 说 话 模型 主要 网 络 结构 的 定义 后 ， 对 COCO 数 据 集 进 行 训 练 ， 具 体 实 现 
如 下 : 


01 def main(unused_argv): 
02 assert FLAGS.input file pattern, 
O3 assert FLAGS.train dir, 
04 model config = configuration. ModelConfig() 
05 model config.input file pattern = FLAGS.input file pattern 
06 model config.inception checkpoint file  FLAGS.inception checkpoint file 
07 training. config = configuration. TrainingConfig() 
08 # 创 建 训练 结果 存储 路 径 
09 train_dir= FLAGS.train dir 
10 ifnottf.gfile.lsDirectory(train dir): 
11  tf.logging.info("Creating training directory: 96s", train. dir) 
12  tf.gfile.MakeDirs(train dir) 
13 # 创 建 训 练 数据 流 图 
14 g-tf.Graph() 
15 with g.as default(): 
16 “# 构建 模型 
17 model = show and tell model.ShowAndTellModel( 
model config, mode-"train", train. inceptionzFLAGS.train inception) 

18  model.build() 
19 AEIJE 
20 learning rate decay fn = None 
21  ifFLAGS.train inception: 
22 learning rate - tf.constant(training config.train inception learning rate) 
23 else: 
24 learning rate - tf.constant(training config.initial learning rate) 
25 iftraining config.learning rate decay. factor > 0: 
26 num. batches per epoch = (training config.num examples per epoch/ 

model config.batch size) 
27 decay. steps = int(num batches per epoch* 

training config.num epochs per decay) 

28 def learning rate decay fn(learning rate, global step): 
29 return tf.train.exponential decay( 

learning rate, global step, decay steps-decay steps, 

decay rate-training config.learning rate decay. factor, 


30 


staircase=True) 
leaming_rate_decay_fn = learning rate decay fn 


31 # 定 义 训练 操作 


32 


33 


train op = tf.contrib.layers.optimize loss( 

loss-model.total loss, 

global step-model.global step, 

learning rate-learning rate, 

optimizer-training config.optimizer, 

clip gradients-training config.clip gradients, 

learning rate decay fn-learning rate decay fn) 

saver = tf.train.Saver(max to keep-training config.max checkpoints to keep) 


34 # 进 行 训练 


35 


tf.contrib.slim.learning.train( 

train op, 

train. dir, 

log every n steps-FLAGS.log every n steps, 
graph-g, 

global step-model.global step, 

number of steps-FLAGS.number of steps, 
init fnzmodel.init fn, 

saver-saver) 


完成 模型 的 训练 后 ， 使 用 训练 好 的 模型 对 图 片 进行 分 析 ， 给 出 对 应 的 描述 。 对 于 模型 


的 使 用 ， 


01 
02 


13 
14 
15 


有 具体 实现 如 下 : 


def main(. ): 
g = tf.Graph() 
with g.as_default(): 
model = inference wrapper.InferenceWrapper() 
restore fn = model.build graph from config(configuration.ModelConfig(), 
FLAGS.checkpoint path) 
9.finalize() 
vocab = vocabulary. Vocabulary(FLAGS.vocab file) 
filenames = [] 
for file pattern in FLAGS.input_files.split(","): 
filenames.extend(tf.gfile.Glob(file pattern)) 
tf.logging.info("Running caption generation on 96d files matching 96s", 
len(filenames), FLAGS.input files) 
with tf.Session(graph-9) as sess: 
restore fn(sess) 
generator = caption generator.CaptionGenerator(model, vocab) 
for filename in flenames: 
with tf.gfile.GFile(filename, "rb") as f: 
image - f.read() 
captions = generator.beam search(sess, image) 
print("Captions for image 96s:" 96 os.path.basenamer(filename)) 
for i, caption in enumerate(captions): 
sentence = [vocab.id to word(w) for w in caption.sentence[1:- 1]] 
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22 sentence = " " join(sentence) 
23 print(" 96d) 96s (p=%f)" 96 (i, sentence, math.exp(caption.logprob))) 


运行 以 上 代码 ， 输 入 如 图 10.6 所 示 的 图 片 。 


E 
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图 10.6 输入 的 图 片 


对 于 这 张 图 片 ， 得 出 的 描述 结果 如 下 : 
0) a woman is standing next to a horse . (p=0.000759) 
1) a woman is standing next to a horse (p=0.000647) 
2) a woman is standing next to a brown horse . (p-0.000384) 


可 以 看 出 ， 训 练 结果 给 出 了 3 名 描述， 其 中 每 一 句 描述 都 包含 概率 值 。 显 然 ， 描 述 语 


言 能 够 识别 图 像 中 的 物品 ， 并 对 图 片 进行 简单 、 准 确 的 描述 。 


KOJ 本 章 小 结 


本 章 主 要 讲解 了 TensorFlow 在 图 像 处 理 方面 的 应 用 ， 以 识别 物体 、 识 别 验证 码 、 物 体 
检测 以 及 看 图 说 话 为 例 ， 对 图 像 处 理 中 的 物体 识别 与 检测 、 图 像 描述 等 领域 进行 了 介绍 。 


TensorFlow 让 计算 机 有 了 理解 图 像 的 能 力 ， 具 备 了 视觉 能 力 。 
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人 脸 识别 


人 脸 识别 是 目前 比较 热门 ， 并 且 能 
够 给 予 大 众 直 观感 受 的 一 种 应 用 。 在 本 章 
中 ， 我 们 将 针对 机 器 学 习 在 人 脸 识别 方面 
的 应 用 进行 讲解 。 


Bua ZUM ^ 


人 脸 识 别 是 基于 人 的 脸 部 特征 信息 进行 身份 识别 的 一 种 识别 技术 ， 主 要 针对 图 像 或 视 
频 中 的 人 脸 进行 处 理 。 从 广义 上 来 说 ， 人 脸 识别 技术 包括 人 脸 检 测 、 人 脸 图 像 特征 提取 、 
人 脸 匹配 与 识别 ， 甚 至 包括 对 性 别 、 年 龄 等 信息 的 识别 。 

使 用 人 脸 识别 技术 可 以 识别 人 的 脸 部 信息 ， 从 而 完成 人 类 身份 信息 的 验证 ， 可 以 应 用 
于 “ 刷 脸 认证 ”和 “ 刷 脸 支付 ”等 场景 。 而 且 在 获取 图 像 的 过 程 中 ， 被 识别 者 无 须 与 采集 
设备 直接 接触 ， 这 既 方便 用 户 的 使 用 ， 也 可 以 广泛 应 用 到 安防 领域 。 在 安防 领域 ， 使 用 人 
脸 识别 技术 可 以 同时 对 多 个 人 脸 进行 检测 、 跟 踪 和 识别 。 

人 脸 识 别 一 直 以 来 都 是 身份 识别 与 验证 领域 的 一 个 重要 发 展 方向 。 在 采用 机 器 学 习 之 
前 ， 人 脸 识别 的 难点 主要 有 三 方面 。 一 是 人 脸 图 像 是 立体 的 ， 需 要 在 高 维度 上 进行 人 脸 特征 
的 提取 和 降 维 。 二 是 基于 可 见 光 图 像 的 人 脸 识 别 ， 当 光照 、 阴 影 、 姿 势 等 发 生变 化 时 ， 同 
一 个 人 的 识别 率 大 大 降低 。 三 是 识别 算法 的 运算 较 麻烦 ， 效 率 较 低 ， 无 法 满足 商用 需求 。 

现在 ， 基 于 海量 数据 的 机 器 学 习 是 人 脸 识别 的 主要 技术 路 线 ， 整 体 的 技术 范围 主要 包 
括 人 脸 图 像 采 集 、 人 脸 检测 、 人 脸 图 像 预 处 理 、 人 脸 关 键 点 检测 、 人 脸 特 征 提取 、 人 脸 对 
比 和 人 脸 属 性 检测 等 。 


EEEI ^52 


人 脸 图 像 采集 是 人 脸 识 别 的 第 一 步 ， 是 对 人 们 在 不 同位 置 、 不 同 表 情 和 不 同 角 度 等 情 
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况 下 人 脸 图 像 的 收集 。 
由 于 进行 人 脸 图 像 采集 一 般 采 用 拍照 和 摄像 等 方式 ， 因 此 无 须 接触 被 识别 者 。 只 要 在 
拍摄 区 域内 ， 均 可 获取 人 脸 图 像 信息 。 


人 有 检测 


人 脸 检 测 (Face Detection) 属 于 目标 检测 的 一 种 ， 是 检测 图 像 中 人 脸 所 在 位 置 的 一 项 
技术 。 人 脸 检测 算法 就 是 在 这 样 的 图 像 范围 内 进行 扫描 ， 再 逐个 判定 候选 区 域 是 否 是 人 
脸 ， 最 终 将 判断 为 人 脸 的 部 分 以 人 脸 坐 标 框 的 方式 标记 出 来 。 这 与 上 一 章 中 的 图 像 物 体 
检测 相似 。 


[11.1.3 ENE ts 


由 于 在 人 脸 检 测 的 结果 中 ， 可 能 获取 到 尺寸 不 一 、 光 线 明暗 不 一 、 干 扰 不 一 等 不 同情 
况 下 的 多 张 人 脸 图 像 ， 因 此 在 进行 后 续 的 人 脸 关键 点 检测 等 任务 时 ， 需 要 对 这 些 图 像 进行 
缩放 、 旋 转 、 拉 伸 、 光 线 补偿 、 灰 度 变换 和 锐 化 等 图 像 预 处 理 。 


[11.1.4 ENEE 
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为 输入 ， 输 出 五 官 关键 点 的 坐标 序列 。 五 官 关 键 点 的 数量 是 预先 设 定好 的 固定 数值 ， 可 以 
根据 不 同 的 语义 来 定义 ， 常 见 的 有 5 点 、68 点 、90 点 等 。 

当前 效果 较 好 的 一 些 人 脸 关 键 点 检测 技术 ， 基 本 都 是 通过 深度 学 习 框架 而 实现 的 ， 这 
些 方法 基于 人 脸 检测 的 人 脸 坐 标 框 ， 按 某 种 事先 设 定 的 规则 将 人 脸 区 域 抠 取 出 来 ， 缩 放 到 
固定 尺寸 ， 然 后 进行 关键 点 位 置 的 计算 。 目 前 ， 在 人 脸 关 键 点 检测 上 ， 使 用 的 深度 学 习 算 
法 主要 是 CSR(Cascaded Shape Regression， 级 联 形状 回归 )。 
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人 脸 特 征 提取 是 将 一 张 人 脸 图 像 以 及 人 脸 关键 点 转换 为 一 串 固定 长 度 的 数值 的 过 程 ， 
该 数值 串 就 是 人 脸 特 征 。 近 年 来 ， 人 脸 特征 提取 算法 一 般 都 采用 深度 学 习 方法 ， 其 中 ， 
DeepID 网 络 结构 是 常用 的 一 种 。 

DeepID 网 络 结构 类 似 于 卷 积 神经 网 络 ， 会 经 过 多 次 卷 积 层 和 池 化 层 。 但 在 倒数 第 二 
层 ， 增 加 了 DeepID 层 。DeepID 层 与 卷 积 层 4 以 及 池 化 层 3 相连 ， 由 于 卷 积 神经 网 络 存在 层 
数 越 高 视野 越 大 的 特性 ， 因 此 这 种 连接 方式 既 能 够 考虑 局 部 特征 ， 又 能 够 考虑 全 局 特征 。 
整体 网 络 结构 如 图 11.1 所 示 。 
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图 11.1 DeeplID 结 构 
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人 脸 比 对 算法 的 输入 是 两 个 人 脸 的 特征 ， 而 输出 是 两 个 特征 之 间 的 相似 度 。 基 于 人 
脸 比 对 可 衍生 出 人 脸 验 证 (Face Verification)、 人 脸 识 别 (Face Recognition), AMIZ (Face 
Retrieval) il A KRX (Face Cluster) 等 应 用 场景 。 

其 中 ， 人 脸 验 证 就 是 分 析 两 张 图 片 中 的 人 脸 是 否 属于 同一 个 人 的 可 能 性 大 小 。 

人 脸 识别 就 是 识别 出 与 输入 的 人 脸 对 应 的 身份 。 一 般 采用 的 方法 是 ， 对 库 中 注册 的 与 
N 个 身份 对 应 的 特征 逐个 比 对 ， 找 出 其 中 与 输入 特征 相似 度 最 高 的 特征 。 

人 脸 检索 就 是 查找 和 输入 的 人 脸 相 似 的 人 脸 。 通 过 将 输入 的 人 脸 和 一 个 集合 中 的 所 有 
人 脸 进行 比 对 ， 根 据 比 对 后 的 相似 度 对 该 集合 中 的 人 脸 进行 排序 。 根 据 相似 度 从 高 到 低 排 
序 的 人 脸 序 列 即 为 人 脸 检索 的 结果 。 

人 脸 聚 类 就 是 对 一 个 集合 中 的 人 脸 根据 身份 进行 分 组 。 


|11.1.7 人 脸 属 性 检测 


人 脸 属 性 检测 包括 识别 出 人 脸 的 性 别 、 年 龄 、 姿 态 等 属性 ， 也 包括 对 喜 怒 哀乐 等 表情 
属性 的 分 析 。 

一 般 的 人 脸 属性 识别 算法 会 根据 通过 人 脸 关键 点 检测 获取 的 人 脸 五 官 关键 点 坐标 进行 
分 析 ， 包 括 对 人 脸 进行 旋转 、 缩 放 和 抠 取 等 操作 ， 并 将 人 脸 调整 到 预定 的 大 小 和 形态 ， 然 
后 进行 属性 分 析 。 


IZ CREER 3 


人 脸 验 证 技术 可 以 应 用 于 手机 开机 后 的 “ 刷 脸 开机 ”、 移 动 支付 领域 的 “ 刷 脸 支付 ” 


zl 


Python+TensorFlow 机 器 学 习 实 战 


以 及 安防 系统 的 “人 脸 鉴 别 ” 等 场景 。 

2015 年 ，Florian Schroff、Dmitry Kalenichenko 和 James Philbin 发 表 了 论文 FaceNet: A 
Unified Embedding for Face Recognition and Clustering'， 其 中 提出 了 FaceNet 模 型 ， 这 是 非 
常 重要 的 一 种 人 脸 识别 模型 ， 可 用 于 人 脸 验证 、 人 脸 识别 和 人 脸 聚 类 等 。 
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在 此 ， 我 们 使 用 公开 的 LFW 数 据 集 *。 该 数据 集 由 美国 马萨诸塞 大 学 阿 姆 斯 特 分 校 的 
计算 机 视觉 实验 室 整理 。 

LEFW 数 据 集 共 包括 5749 人 ， 超 过 13 000 张 人 脸 图 片 。 其 中 ，4096 人 只 有 一 张 图 片 ， 
1680 人 有 多 于 一 张 的 图 片 。 在 该 数据 集中 以 每 个 人 的 人 名 创建 了 文件 夹 ， 在 文件 夹 中 存放 
此 人 的 图 片 ， 例 如 Aaron_Eckhart_0001.jpg。 数 据 集 中 每 张 图 片 的 规格 是 250 像 素 X250 像 
素 ， 这 降低 了 训练 的 难度 。 

1. 对 齐 数据 集 

在 图 像 识 别 中 ， 数 据 的 预 处 理 是 非常 重要 的 一 步 。 由 于 后 续 将 使 用 预先 训练 好 的 模 
型 ， 因 此 在 使 用 LFW 数 据 集 时 ， 需 要 将 待 检测 使 用 的 数据 集 校 准 为 与 预 训练 模型 中 使 用 的 
数据 集 大 小 一 致 。 

使 用 FaceNet 源 代码 ;下 的 align 模 块 进行 校准 ， 校 准 代码 详 见 https://github.com/ 
davidsandberg/facenet/tree/master/src/align/align_dataset_mtcnn.py。 对 下 载 的 LFW 数 据 进 
行 处 理 ， 具 体 如 下 : 


python src/align/align dataset mtcnn.py /anaconda3/envs/tensorflow/datasets/Itw/anaconda3/ 
envs/tensorflow/datasets/Ifw/Ifw  mtcnnpy. 160 --image size 160 --margin 32 --random order --gpu 
memory. fraction 0.25 


经 过 以 上 处 理 后 ， 将 获取 规格 为 160 像 素 X 160 像 素 的 所 有 图 片 。 

2. 下 载 预 训练 模型 

FaceNet 提 供 了 两 个 预 训 练 模型 ， 分 别 基 于 CASIA-WebFace 和 MS-Celeb-1M 人 脸 库 训 
练 。 其 中 ，MS-Celeb-1M 是 微软 开源 的 一 个 人 脸 识别 数据 库 ， 它 从 名 人 榜 上 选择 排名 前 
100 万 的 名 人 ， 然 后 通过 搜索 引擎 采集 每 个 名 人 大 约 100 张 人 脸 图 片 。 预 训练 模型 的 准确 率 
已 经 达到 0.993 土 0.004。 

建立 文件 夹 以 存放 预 训练 模型 ， 例 如 存放 在 models 文 件 夹 中 。 


111.2.2| 运行 FaceNet 模 型 


人 脸 识 别 的 实现 一 般 都 要 先 经 过 人 脸 检测 (Face Detection)、 人 脸 对 齐 (Face Alignment) 
等 预 处 理 ， 这 样 可 以 降低 背景 和 环境 等 因素 带 来 的 干扰 。 然 后 将 人 脸 图 像 映射 到 欧 几 里 得 
1 ”参考 https://arxiv.org/abs/1503.03832。 
2 ”数据 集 的 下 载 地 址 为 http://Vis-www.cs.umass.edu/lfw/lfw.tgz。 
3 ”参考 https://github.com/davidsandberg/facenet。 


rr 


空间 ， 空 间距 离 的 长 度 代表 人 脸 图 像 的 相似 性 。 人 脸 图 像 到 空间 之 间 的 映射 生成 一 直 是 实 
现 人 脸 识别 的 关键 。 

FaceNet 模 型 通过 卷 积 神经 网 络 学 习 将 图 像 映射 到 欧 几 里 得 空间 ， 整 体 框架 与 其 他 经 
典 的 深度 学 习 方法 基本 一 致 。 前 面 介绍 的 人 脸 特征 提取 部 分 也 基于 CNN， 只 不 过 在 深度 
网 络 模 型 的 后 面 再 接 特征 归 一 化 层 ， 将 图 像 特征 都 映射 到 一 个 超 球面 上 ， 这 样 可 以 规避 样 
本 的 成 像 环境 带 来 的 差异 。 最 后 采用 triplet loss 作 为 损失 ， 使 用 随机 梯度 下 降 法 (Stochastic 
Gradient Descent，SGD) 进 行 反 向 传播 ， 获 得 128 维 的 向 量 空间 。 

使 用 FaceNet 模 型 实现 具体 的 人 脸 验证 ， 主 要 分 为 以 下 步 又 。 


1. 获取 数据 及 标签 


在 FaceNet 模 型 的 data 目 录 中 ， 已 由 官方 随机 生成 了 pairs.txt 文 件 ， 该 文件 中 的 每 一 行 
数据 代表 一 种 对 应 关系 ， 例 如 : 

Akhmed Zakayev 1 3 

Simon Yam 1 Terry. McAuliffe 3 

这 分 别 表 示 Akhmed _Zakayev 中 的 第 1 张 和 第 3 张 是 同一 个 人 。Simon_ Yam 中 的 第 1 张 和 
Terry McAuliffe 中 的 第 3 张 不 是 同一 个 人 。 

对 该 文件 进行 解析 ， 可 获得 文件 路 径 和 是 否 匹配 的 关系 对 ， 具 体 实现 如 下 : 


01 def get_paths(Ifw_dir, pairs): 
02 nrof_skipped_pairs = 0 
O3 path_list=[] 

04  issame list 7 [] 

05  forpairin pairs: 

06 if len(pair) == 3: 


07 pathO = add. extension(os.path.join(Ifw. dir, pair[0], pair[O] + ' ' + 
'9504d' 96 int(pair[1]))) 

08 path1 = add. extension(os.path.join(Ifw dir, pair[0], pair[O] + ' ' + 
'%04d' 96 int(pair[2]))) 

09 issame = True 

10 elif len(pair) == 4: 

11 pathO = add. extension(os.path.join(Ifw. dir, pair[0], pair[O] + ' ' + 
'9604d' 96 int(pair[1]))) 

12 path1 = add extension(os.path.join(Itw dir, pair[2], pair[2]  ' ' + 
'9604d' 96 int(pair[3])) 

13 issame - False 

14 if os.path.exists(pathO) and os.path.exists(path1): 

15 path_list += (pathO,path1) 

16 issame list.append(issame) 

17 else: 

18 nrof skipped pairs += 1 


19  ifnrof skipped pairs»0: 
20 print('Skipped 96d image pairs' 96 nrof skipped pairs) 
21 return path list, issame list 


23 def main(args): 
24  withtf.Graph().as default(): 


25 with tf.Session() as sess: 


26 pairs = Ifw.read pairs(os.path.expanduser(args.Ifw. pairs)) 
2f paths, actual issame = Ifw.get paths(os.path.expanduser(args.Ifw dir), pairs) 
2. 获取 输入 张 量 


FaceNet 模 型 需要 输入 图 像 信息 ， 具 体 实 现 如 下 : 


01 image paths placeholder = tf.placeholder(tf.string, shape=(None, 1), name-'image paths") 
02 labels placeholder = tf.placeholder(tf.int32, shape-(None, 1), name-'labels") 
O3 batch size placeholder = tf.placeholder(tf.int32, name-'batch size") 
04 control placeholder = tf.placeholder(tf.int32, shape-(None, 1), name-'control') 
05 phase train placeholder = tf.placeholder(tf.bool, name-'phase train") 
06 nrof preprocess threads = 4 
07 image size = (args.image size, args.image size) 
08 eval input queue = data flow ops.FlFOQueue(capacity-2000000, 
dtypes-[tf.string, tf.int32, tf.int32], 
shapes-((1,), (1,), (1,)], 
shared_name=None, name=None) 
09 eval enqueue op = eval input queue.enqueue many([image paths placeholder, 
labels placeholder, control placeholder], name-'eval enqueue op") 
10 image. batch, label batch = facenet.create input pipeline(eval input queue, image size, 
nrof preprocess threads, batch size placeholder) 


3. 加 载 模型 


对 预 训练 的 FaceNet 模 型 进行 加 载 ， 具 体 实现 如 下 : 


01 input map ={fimage_batch': image batch, label_batch': label batch, 
'pohase train: phase train placeholder) 
02 facenet.load model(args.model, input. map-input map) 


4. 验证 评估 数据 


在 LFW 数 据 集中 验证 预 训练 模型 ， 具 体 实 现 如 下 : 


01 defevaluate(sess, enqueue op, image paths placeholder, labels placeholder, 

phase train placeholder, batch size placeholder, control placeholder, 

embeddings, labels, image paths, actual issame, batch size, 

nrof folds, distance metric, subtract mean, use flipped images, 

use fixed image standardization): 
02  print(('Runnning forward pass on LFW images") 
O3  nrof embeddings = len(actual issame)*2 
04  nrof flips 2 2ifuse flipped images else 1 
05  nrof images = nrof embeddings * nrof flips 
06 labels array = np.expand dims(np.arange(O,nrof images),1) 
07 image paths array = np.expand dims(np.repeat(np.array(image paths),nrof flips),1) 
08 control array 7 np.zeros like(labels array, np.int32) 
09  ifuse fixed image standardization: 
10 control array += np.ones like(labels array)*facenet.FIXED STANDARDIZATION 
11  ifuse flipped images: 
12 control array += (labels array 96 2)*facenet.FLIP 
13  sess.run(enqueue op, (image paths placeholder: image paths array, 

labels placeholder: labels array, control placeholder: control array]) 
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embedding size = int(embeddings.get_shape()[1]) 
assert nrof images 96 batch_size == 0, The number of LFW images must be an integer 
multiple of the LFW batch size' 
nrof batches = nrof images // batch size 
emb array 7 np.zeros((nrof images, embedding size)) 
lab array 7 np.zeros((nrof images,)) 
for i in range(nrof. batches): 
feed dict- (phase train placeholder:False, batch size placeholder:batch size] 
emb, lab = sess.run([embeddings, labels], feed dict-feed dict) 
lab array[lab] = lab 
emb array[lab, :] = emb 
ifi % 10 == 9: 
print('.', end=") 
sys.stdout.flush() 
print") 
embeddings = np.zeros((nrof embeddings, embedding_size*nrof_flips)) 
ifuse flipped images: 
embeddings[:,:embedding size] = emb array[0::2,:] 
embeddings[:,embedding size:] = emb array[1::2,:] 
else: 
embeddings = emb array 
assert np.array. equal(lab array, np.arange(nrof images))-- True, 'Wrong labels used for 
evaluation, possibly caused by training examples left in the input pipeline" 
# 调用 算法 的 准确 率 测试 方法 ， 采 用 十 字 交 叉 验证 的 方法 
tpr, fpr, accuracy, val, val_std, far = Ifw.evaluate(embeddings, actual issame, 
nrof folds-nrof folds, distance metric-distance metric, 
subtract mean-subtract mean) 
print('Accuracy: 962.5f4-—962.5f 96 (np.mean(accuracy), np.std(accuracy))) 
print( Validation rate: 962.5f4-—962.5f @ FAR-962.5f % (val, val std, far)) 
auc = metrics.auc(fpr, tpr) 
print('Area Under Curve (AUC): 961.3f 96 auc) 
eer = brenta(lambda x: 1. - x - interpolate.interp1a(fpr, tpr)(x), O., 1.) 
print('Equal Error Rate (EER): 961.3f 96 eer) 


运行 上 述 代码 ， 得 到 如 下 输出 结果 : 


Runnning forward pass on LFW images Accuracy: 0.992+-0.003 Validation rate: 0.97467+-0.01477 
(9 FAR-0.00133 Area Under Curve (AUC): 1.000 Equal Error Rate (EER): 0.007 


可 以 看 出 ， 谷 歌 发 布 的 FaceNet 模 型 在 人 脸 识别 上 表现 不 俗 ， 在 LFW 数 据 集 上 的 正确 
率 已 经 高 于 99%。 
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人 脸 验 证 就 是 对 比 两 张 图 片 中 的 人 脸 ， 判 断 是 否 是 同一 个 人 。 人 脸 验证 可 在 各 种 身份 
认证 场景 中 应 用 。 在 本 节 中， 我 们 将 使 用 FaceNet 模 型 实现 人 脸 验 证 。 


1. 加 载 并 对 齐 图 片 


从 LFW 数 据 集中 选择 两 张 图 片 ， 并 对 这 两 张 图 片 进行 对 比 。 在 对 比 前 ， 需 要 读 取 图 片 
并 对 齐 数 据 ， 实 现 相关 的 预 处 理 ， 具 体 实现 如 下 : 


01 defload and align data(image paths, image size, margin, gpu_memory_fraction): 


02 
03 
04 
05 
06 


07 


31 
32 


minsize = 20 
threshold = [ 0.6, 0.7, 0.7 ] 
factor = 0.709 
print('Creating networks and loading parameters") 
with tf.Graph().as default(): 
gpu. options - tf.GPUOptions(per process gpu memory fraction 
-gpu memory fraction) 
sess = tf.Session(config-tf.ConfigProto(gpu options-gpu options, 
log device placement-False)) 
with sess.as default(): 
pnet, met, onet = align.detect face.create mtcnn(sess, None) 
tmp image paths-copy.copy(image paths) 
img list = [] 
for image in tmp. image paths: 
img = misc.imread(os.path.expanduser(image), mode-'RGB") 
img. size = np.asarray(img.shape)[0:2] 
bounding boxes, _ = align.detect face.detect face(img, minsize, pnet, rnet, 
onet, threshold, factor) 
iflen(bounding boxes) < 1: 
image paths.remove(image) 
print("can't detect face, remove ", image) 
continue 
det = np.squeeze(bounding boxes[0,0:4]) 
bb = np.zeros(4, dtype-np.int32) 
bb[0]  np.maximum(det[0]-margin/2, 0) 
bb[1] = np.maximum(det[1]-margin/2, 0) 
bb[2] = np.minimum(det(2]*margin/2, img. size[1]) 
bb[3] = np.minimum(det([3]* margin/2, img. size[0]) 
cropped = img[bb[1]:bb[3],bb[O]:bb[2],:] 
aligned = misc.imresize(cropped, (image size, image. size), interp-'bilinear") 
prewhitened = facenet.prewhiten(aligned) 
img. lis.append(prewhitened) 
images = np.stack(img list) 
return images 


2. 加 载 模型 ， 并 进行 人 脸 验 证 


加 载 训练 模型 ， 对 加 载 的 人 脸 图 片 进 行 处 理 ， 具 体 实现 如 下 : 
01 def main(args): 


02 


05 


07 


10 


images = load and align data(args.image files, args.image size, args.margin, 

args.gpu memory. fraction) 

with tf.Graph().as default(): 

with tf.Session() as sess: 

facenet.load model(args.model) niens 
images. placeholder = tf.get default graph().get tensor by name('input:0") 
embeddings = tf.get default graph().get tensor by name("embeddings:0") 
phase train placeholder = tf.get default graph(). 
get tensor by name('phase train:O") 
feed dict- (images placeholder: images, phase train placeholder:False } 
emb = sess.run(embeddings, feed dict-feed dict) 
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11 nrof images = len(args.image files) 

12 print(Images:") 

13 for iin range(nrof. images): 

14 print(961d: 96s' 96 (i, args.image  files[i])) 

15 print(") 

16 print(Distance matrix) 

17 print" ', end=") 

18 for i in range(nrof_images): 

19 prin" 961d '% i, end=") 

20 print(") 

21 for iin range(nrof images): 

22 print(961d ' 96 i, end") 

23 for j in range(nrof images): 

24 dist = np.sart(np.sum(np.square(np.subtract(emby[i,:], emb[j,:])))) 

25 print" 961.4f ' 96 dist, end=") 

26 print(") 

运行 上 述 代码 ， 输 出 结果 如 图 11.2 所 示 。 
Images: 


06:Aaron Guiel 0001.jpg 
1:Aaron Peirsol 0001.jpg 


Distance matrix 

e 1 
e 0.0000 41.2931 
1 1.2931 0.0000 


图 11.2 ARMEER 
输出 的 最 终结 果 是 两 张 人 脸 图 片 的 欧 氏 距离 的 二 分 类 代价 矩阵。 如 果 两 张 人 脸 相似 ， 
代价 值 cost 的 相似 度 范围 为 [0,1]。 如 果 为 0， 则 说 明 完 全 相同 ， 如 果 代 价值 cost 大 于 1， 则 说 
明 相似 度 为 0。 
通过 本 节 的 练习 ， 我 们 掌握 了 最 基础 的 人 脸 验证 技术 。 


M 


现在 ， 手 机 的 拍照 功能 越 来 越 多 样 化 ， 不 少 还 能 识别 出 年 龄 ， 这 就 是 人 脸 识别 的 一 种 
应 用 场景 。 在 本 节 中 ， 我 们 将 实现 性 别 和 年 龄 的 识别 '。 


KE Adience 数 据 集 


Adience 数 据 集 源 于 Flickr 相 册 ， 该 相册 中 的 图 片 由 用 户 使 用 让 Phone 或 其 他 智能 手机 拍 
摄 得 到 ， 并 获得 相应 的 公众 许可 。 该 数据 集中 有 图 片 26 580 张 ， 分 为 2284 个 类 别 ， 涉 及 
的 年 龄 范围 为 8 个 区 间 ， 分 别 是 1~2 岁 、4~6 岁 、8~13 岁 、15~20 岁 、25~32 岁 、38~43 岁 、 


1 参考 https://github.com/dpressel/rude-carnie。 
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48~53 岁 以 及 60 岁 以 上 。 这 些 图 片 都 未 经 处 理 ， 反 映 了 真实 的 自然 环境 ， 含 有 背景 噪声 、 
不 同 光照 以 及 不 同 姿 势 等 情况 。 

Adience 数 据 集 的 下 载 地 址 为 http://www.openu.ac.il/home/hassner/Adience/data. 
html#agegender， 下 载 后 的 目录 如 图 11.3 所 示 。 


works » Tensorflow » 公开 数据 集 » AdienceBenchmarkOfUnfilteredFacesForGenderAndAgeClassification » 
新 建文 件 夫 
名 称 修改 日 其 ag 大 小 
$ aligned.zip 2018/6/12 13:54 WinRAR ZIP FEE... 4KB 
faces.zip 2018/6/12 13:54 WinRAR ZIP 压缩 . 4KB 
E fold 0. data.txt 2018/6/12 13:54 ”文本 文档 356 KB 
fold 1 data.txt 2018/6/1213:53 ”文本 文档 298 KB 
E fold_2_data.txt 2018/6/12 13:54 ”文本 文档 311 KB 
E fold_3_data.txt 2018/6/12 13:54 ”文本 文档 279 KB 
L3 fold_4_data.tt 2018/6/12 13:54 ”文本 文档 308 KB 
E fold_frontal_0_data.txt 2018/6/12 13:54 ”文本 文档 254 KB 
E] feld _frontal_1_data.txt 2018/6/12 13:54 ”文本 文档 243 KB 
E feld frontal 2 data.txt 2018/6/12 13:54 ”文本 文档 190 KB 
[E feld frontal 3 data.txt 2018/6/12 13:54 文本 文档 202 KB 
E fold frontal 4 data.txt 2018/6/12 13:54 ”文本 文档 193 KB 
[E LICENSE.txt 2018/6/12 13:54 ”文本 文档 2 KB 
README.txt 2018/6/12 13:54 ”文本 文档 4KB 


图 11.3 Adience 数 据 集 


其 中 ，faces.zip 中 存放 的 是 人 脸 图 片 的 原始 数据 。 

aligned.zip 中 存放 的 是 经 过 剪裁 和 对 齐 的 数据 。 

fold_0_data.txt~fold_4_data.txt 中 存放 的 是 全 部 数据 的 标记 信息 。 

fold frontal 0_data.txt~fold_frontal 4_data.txt 中 存放 的 是 正面 姿态 的 面部 数据 的 标 
记 信息 。 

标记 信息 中 包括 user_id、original image. face id. age. gender. x. y. dx. dy. tilt. 
ang. fiducial yaw_angle 以 及 fiducial _ score， 分 别 表示 用 户 id、 图 片 文件 名 、 人 物 标 识 id、 
年 龄 、 性 别 、 组 成 人 脸 边 框 的 值 以 及 斜 切 角度 、 基 准 偏 移 角 度 、 基 准 分 数 。 
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为 了 提高 后 续 处 理 模型 的 效率 ， 需 要 把 数据 集 文件 转换 为 TFRecords 格 式 文件 。 
TFRecords 格 式 文件 中 包括 标签 、 文 件 名 、 文 件 以 及 图 像 的 高 度 与 宽度 信息 ， 具 体 定 
义 如 下 : 
example = tf.train.Example(features-tf.train.Features(feature-( 

'image/class/label': int64 feature(label), 

'image/filename': bytes feature(str.encode(os.path.basenamer(filename))), 

'image/encoded' bytes feature(image buffer), 

'image/height: int64 feature(height), 

'image/width: int64 feature(width) 


rr 


完成 TFRecords 格 式 文件 的 定义 后 ， 再 进行 文件 的 转换 ， 具 体 实现 如 下 : 


01 def process image files batch(coder, thread index, ranges, name, filenames, 
labels, num. shards): 

02 num threads - len(ranges) 

O3 assert not num shards 96 num threads 

04 num shards per batch - int(num shards / num threads) 

05  shard ranges = np.linspace(ranges[thread index](0], 
ranges[thread index]1], 
num shards per batch + 1).astype(int) 

06 num files in thread = ranges[thread index][1] - ranges[thread index][0] 

07  counter- 0 

08  forsinxrange(num shards per batch): 

09 shard = thread index * num shards per batch + s 

10 output. filename = '96s-96.5d-of-96.5d' 96 (name, shard, num shards) 

11 output file = os.path.join(FLAGS.output dir, output. filename) 

12 writer = tf.python. io. TFRecordWriter(output. file) 

13 shard counter = 0 

14 files in shard = np.arange(shard ranges[s], shard ranges([s + 1], dtype-int) 


15 foriinfiles in shard: 

16 filename = filenames[i] 

17 label = int(labels[i]) 

18 image buffer, height, width process imager(filename, coder) 

19 example = convert to example(filename, image buffer, label, 

height, width) 

20 writer.write(example.Serialize ToString()) 

21 shard counter += 1 

22 counter += 1 

23 if not counter % 1000: 

24 print('%s [thread %d]: Processed 96d of 96d images in thread batch.' 96 
(datetime.now(), thread index, counter, num files in thread)) 

25 Sys.stdout.flush() 


26 writer.close() 
27 print('%s [thread 96d]: Wrote 96d images to %s' 96 
(datetime.now(), thread index, shard counter, output file)) 

28 Sys.stdout.flush() 

29 shard counter = 0 

30  print(96s [thread 96d]: Wrote 96d images to 96d shards.' 96 
(datetime.now(), thread. index, counter, num files in thread)) 

31  sys.stdout.flush() 
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20154E, Gil Levi fll Tal Hassner 发 表 了 论文 4ge and Gender Classification using Convolutional 
Neural Networks'"， 其 中 提出 了 一 种 关于 年 龄 和 性 别 的 神经 网 络 训练 模型 。 

该 模型 以 卷 积 神经 网 络 为 基础 ， 总 共 使 用 了 三 个 卷 积 层 、 两 个 全 连接 层 ， 最 后 使 用 分 
类 器 输出 结果 ， 整 体 网 络 架 构 如 图 11.4 所 示 。 


1 参考 https://www.openu.ac.il/home/hassner/projects/cnn agegender/CNN AgeGenderEstimation.pdf。 


图 11.4 网 络 架构 图 


具体 实现 如 下 : 
01 def levi_hassner(nlabels, images, pkeep, is_training): 


02 
03 
04 
05 


23 
24 


weight_decay = 0.0005 
weights_regularizer = tf.contrib.layers.l2_regularizer(weight_decay) 
with tf.variable_scope("LeviHassner", "LeviHassner", [images]) as scope: 
with tf.contrib.slim.arg_scope( 
[convolution2d, fully connected], 
weights. regularizer-weights regularizer, 
biases initializer-tf.constant initializer(1.), 
weights initializer-tf.random normal initializer(stddev-0.005), 
trainable- True): 
with tf.contrib.slim.arg scope( 
[convolution2d], 
weights initializer-tf.random normal initializer(stddev-0.01)): 
conv1 = convolution2d(images, 96, [7,7], [4, 4), paddingz VALID', 
biases initializer-tf.constant initializer(0.), scope-'conv1') 
pool1 = max pool2d(conv1, 3, 2, padding-' VALID', scope-'pool1") 
norm1 = tf.nn.local response normalization(pool1, 5, alpha-0.0001, 
beta-0.75, name-'norm1") 
conv2 = convolution2d(norm1, 256, (5, 5], [1, 1], padding-'"SAME', 
Scope-'conv2") 
pool2 = max. pool2d(conv2, 3, 2, padding-' VALID', scope-'pool2") 
norme? - tf.nn.local response normalization(pool2, 5, alpha-0.0001, 
beta-0.75, name-'norm2") 
conv3 = convolution2d(norme2, 384, [3, 3], [1, 1], biases initializer 
tf.constant initializer(0.), padding-'SAME', scope-'conv3") 
pool3 = max. pool2d(conv3, 3, 2, padding- VALID', scope-'pool3") 
flat = tf.reshape(pool3, [-1, 384*6*6], name-'reshape") 
full1 = fully connected(flat, 512, scope-full1") 
drop? = tf.nn.dropout(full1, pkeep, name-'drop1") 
full2 = fully connected(drop1, 512, scope-full2") 
drop? = tf.nn.dropout(full2, pkeep, name-'drop2") 
with tf. variable scope('output) as scope: 
weights = tf. Variable(tf.random normal([512, nlabels], mean-0.0, stddev-0.01), 
namecz' weights") 
biases = tf. Variable(tf.constant(0.0, shape-[nlabels], dtype-tf.float32), 
name-'biases") 
output = tf.add(tf.matmul(drop2, weights), biases, name-scope.name) 
return output 


rr 


损失 函数 的 定义 如 下 : 
01 def loss(logits, labels): 


02 


labels = tf.cast(labels, tf.int32) 
cross entropy = tf.nn.sparse softmax cross entropy with logits( 
logits-logits, labelszlabels, name-'cross entropy per example") 
cross entropy mean = tf.reduce mean(cross entropy, name-'cross entropy") 
tf.add to collection(losses', cross entropy mean) 
losses = tf.get collection('losses") 
regularization losses = tf.get collection(tf.GraphKeys.REGULARIZATION LOSSES) 
total loss = cross entropy mean + LAMBDA * sum(regularization losses) 
tf.summary.scalar('l (raw), total loss) 
loss averages = tf.train.ExponentialMovingAverage(0.9, name-'avg") 
loss averages op -loss averages.apply(losses - [total loss]) 
for | in losses + [total loss]: 
tf.summary.scalar(l.op.name + ' (raw) |) 
tf.summary.scalar(l.op.name, loss  averages.average(l)) 
with tf.control dependencies([loss averages op]: 
total loss = tf.identity(total loss) 
return total loss 


完成 了 训练 模型 和 损失 函数 的 定义 后 ， 接 下 来 依次 调用 方法 进行 模型 的 训练 ， 具 体 实 


现 如 下 : 


01 def main(argv=None): 


02 


19 


with tf.Graph().as default(): 

model fn 7 select model(FLAGS.model type) 
# 打开 元 数据 
input. file = os.path.join(FLAGS.train dir, mdJjson) 
print(input file) 
with open(input file, 'r) as f: 

md = json.load(f) 
images, labels, _ = distorted inputs(FLAGS.train dir, FLAGS.batch size, 
FLAGS.image size, FLAGS.num preprocess threads) 
logits = model fn(md([nlabels'], images, 1-FLAGS.pdrop, True) 
total loss - loss(logits, labels) 
train op = optimizer(FLAGS.optim, FLAGS.eta, total loss, FLAGS.steps per decay, 
FLAGS.eta decay rate) 
saver - tf.train.Saver(tf.global variables()) 
summary. op = tf.summary.merge. all() 
Sess = tf.Session(config-tf.ConfigProto( 

log. device placement-FLAGS.log. device placement)) 

tf.global variables initializer().run(session-sess) 
3t 可 以 使 用 预 训练 的 InceptionV3 模 型 
if FLAGS.pre model: 

inception variables = tf.get collection( 

tf.GraphKeys.VARIABLES, scope-"Inception V3") 
restorer = tf.train.Saver(inception variables) 


n+Tensor 


22 restorer.restore(sess, FLAGS.pre model) 

23 if FLAGS.pre checkpoint path: 

24 if tf.gfile.Exists(FLAGS.pre checkpoint path) is True: 

25 print(Trying to restore checkpoint from 96s' 96 FLAGS.pre checkpoint path) 
26 restorer - tf.train.Saver() 

27 tftrain.latest checkpoint(FLAGS.pre checkpoint path) 

28 print(96s: Pre-trained model restored from %s' 96 

29 (datetime.now(), FLAGS.pre checkpoint path)) 


30 run. dir = '96s/run-96d' 96 (FLAGS.train dir, os.getpid()) 
31 checkpoint. path = '96s/96s' 96 (run. dir, FLAGS.checkpoint) 
32 iftf.gfile.Exists(run dir) is False: 
33 print('Creating 96s' 96 run. dir) 
tf.gfile.MakeDirs(run. dir) 
35 tf.train.write graph(sess.graph def, run dir, 'model.pb', as text" True) 
36 tf.train.start queue runners(sess-sess) 
37 summary. writer = tf.summary.FileWriter(run dir, sess.graph) 
38 Steps per train epoch = int(md['train counts'] / FLAGS.batch size) 
39 num. steps = FLAGS.max steps if FLAGS.epochs < 1 else FLAGS.epochs * 
Steps per train epoch 
40 print('Requested number of steps [96d]! % num steps) 


41 for step in xrange(num steps): 

42 start time = time.time() 

43 .,loss value = sess.run([train op, total loss]) 

44 duration = time.time() - start. time 

45 assert not np.isnan(loss. value), 'Model diverged with loss = NaN' 

46 if step % 10 == 0: 

47 num examples per step = FLAGS.batch size 

48 examples per sec = num examples per step / duration 

49 Sec per batch - float(duration) 

50 format str = ('96s: step 96d, loss = 96.3f (96.1f examples/sec; 

96.3f ' 'sec/batch)") 

51 print(format str % (datetime.now(), step, loss value, 
examples per sec, sec per batch)) 

52 if step 96 100 == 0: 

53 summary. str = sess.run(summary. op) 

54 summary. writer.add summary(summary. str, step) 

55 if step 96 1000 == O or (step + 1) == num steps: 

56 saver.save(sess, checkpoint. path, global step-step) 


运行 以 上 代码 ， 对 模型 进行 训练 。 由 于 训练 的 时 间 比 较 长 ， 因 此 训练 过 程 中 要 不 断 地 
进行 保存 。 


完成 了 模型 的 训练 后 ， 再 对 模型 进行 评估 。 为 此 ， 使 用 一 张 人 物 图 片 来 验证 模型 是 否 
准确 。 对 人 物 图 片 进行 分 析 的 关键 代码 如 下 : 


01 def classify_many_single_crop(sess, label list, softmax output, coder, 
images, image files, writer): 
02 ty: 


03 num batches = math.ceil(len(image files) / MAX BATCH SZ) 
04 pg = ProgressBar(num batches) 


05 for j in range(num batches): 

06 start offset =j* MAX BATCH SZ 

07 end offset = min((j + 1) * MAX BATCH SZ,len(image files)) 

08 batch image files = image files[start offset:end offset] 

09 print(start offset, end offset, len(batch image files)) 

10 image batch = make multi image batch(batch image files, coder) 

11 batch. results = sess.run(softmax output, feed dict- 
(images:image batch.eval()]) 

12 batch sz = batch results.shape[0] 

13 for iin range(batch sz): 

14 output i- batch results[i] 

15 best i np.argmax(output i) 

16 best choice = (label list[best i], output i[best i]) 

17 print('Guess @ 1 96s, prob = 96.2f 96 best choice) 

18 if writer is not None: 

19 f= batch image files[i] 

20 writer.writerow((f, best choice[0], '96.2f 96 best. choice[1])) 

21 pg.update() 


22 pg.done() 

23 except Exception as e: 

24 print(e) 

25 print('Failed to run all images") 


运行 以 上 代码 ， 可 以 得 到 人 物 图 片 的 性 别 及 概率 。 


本 章 主 要 讲解 了 TensorFlow 在 人 脸 识 别 领域 的 应 用 。 首 先 介绍 了 人 脸 识别 的 原理 和 分 
类 ， 然 后 结合 最 常见 的 案例 ， 讲 解 了 人 脸 验 证 以 及 如 何 从 人 脸 来 判别 性 别 和 年 龄 。 
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